Site WWW de Laurent Bloch
Slogan du site

ISSN 2271-3905
Cliquez ici si vous voulez visiter mon autre site, orienté vers des sujets moins techniques.

Pour recevoir (au plus une fois par semaine) les nouveautés de ce site, indiquez ici votre adresse électronique :

Communications of the ACM (CACM) :
Biais selon la langue dans Wikipédia, Google, ChatGPT et YouTube
par Queenie Luo, Michael J. Puett et Michael D. Smith
Article mis en ligne le 8 octobre 2024

par Laurent Bloch

Une révolution cognitive, des divergences culturelles

Nul doute que les chercheurs qui étudieront l’histoire de la pensée au tournant du XXIe siècle accorderont un chapitre substantiel à l’apparition des moteurs de recherche et des encyclopédies en ligne, qui apportent dans les lieux les plus reculés et aux populations les plus démunies des connaissances et des informations naguère réservées aux habitants de villes universitaires dotées de bibliothèques et de librairies, et seulement au prix de temps de recherche bien plus importants. Il n’est pas excessif de parler ici de révolution cognitive.

Il faudrait d’ailleurs parler plutôt du moteur de recherche et de l’encyclopédie en ligne, parce que le Google Search et Wikipédia sont en position de monopole (temporaire), conformément aux lois des rendements croissants et de la concurrence monopolistique. Mais là n’est pas le sujet pour l’instant.

L’utilisateur régulier de ces outils si commodes aura pu faire une remarque empirique : pour Wikipédia par exemple et si l’on s’en tient aux articles des domaines techniques, des sciences de la nature ou de l’informatique, selon la langue d’interrogation la qualité des articles peut varier, mais leur teneur informationnelle ne sera pas trop hétérogène, essentiellement parce que les termes scientifiques et techniques sont généralement dotés de définitions relativement claires et univoques, peu sujettes à controverses idéologiques. Si par contre on va sur le terrain des sciences humaines et sociales, on peut tomber sur de vraies divergences de vue. Et ne parlons pas des sujets politiques, historiques ou culturels...

Une démarche systématique sur deux domaines bien délimités

Queenie Luo, Michael J. Puett et Michael D. Smith, auteurs de l’article dont il est question ici, se sont donné pour tâche un examen systématique de ce biais selon la langue, qui est en fait un biais culturel et politique, entre plusieurs versions de Wikipédia, Google, ChatGPT et YouTube. Ils ont choisi deux sujets, le bouddhisme et le libéralisme, et douze langues, anglais, français, allemand, chinois, thaï, vietnamien, italien, espagnol, russe, coréen, népalais et japonais, avec l’aide de connaisseurs de ces langues et des cultures qui les utilisent.

L’introduction de l’article repose sur une fable du folklore indien : six aveugles croisent un éléphant, chacun peut toucher une partie de l’animal, et chacun arrive à des conclusions complètement différentes sur la nature de ce qu’ils ont rencontré [1].

De même, lorsque l’on soumet une question à Google, plutôt que de donner une réponse synthétique globale, le moteur de recherche se base sur la langue d’interrogation pour donner une réponse qui corresponde à l’univers culturel du questionneur, voire à ses biais ethnocentrés. Ainsi, une recherche d’images sur Google par la locution anglaise wedding clothes donnera des images de costumes de mariage de style occidental, en omettant les kimonos japonais ou les saris indiens.

C’est pire avec ChatGPT, dont le corpus d’apprentissage (à la date de rédaction de l’article tout du moins) est presque exclusivement en anglais.

Lors de la soumission de chaque interrogation, nos auteurs ont retenu à fin d’analyse les 50 premiers sites mentionnés par Google, les 35 premières vidéos retenues par YouTube, le texte intégral de l’article de Wikipédia, et cinq réponses de ChatGPT dans cinq fenêtres d’interrogation (de prompt comme il faut dire maintenant) distinctes. Le but des auteurs n’était pas de quantifier la disjonction entre les réponses des systèmes et le corpus global, mais d’identifier les occurrences de ces disjonctions et de commencer à identifier les types de biais qu’elles induisent.

Les observations

Bouddhisme

En 2500 ans le bouddhisme s’est répandu dans la plupart des pays d’Asie, et connaît depuis quelques décennies un grand succès en Occident, sans oublier les migrations de populations asiatiques vers ces mêmes pays occidentaux. Mais, sans surprise, chacun de ces univers culturels a sa propre acception du bouddhisme, qui est plus un courant de pensée ou une vision du monde, au demeurant peu dogmatique [2], qu’une religion au sens où l’entendent les fidèles des religions du Livre, juifs, chrétiens et musulmans.

Les interrogations en français et en allemand donnent des liens vers des sites encyclopédiques ou historiques, en anglais on reçoit plutôt des adresses de centres de retraites spirituelles. Le chinois donne la ligne du parti sur l’organisation des monastères bouddhistes, les sites indiqués en réponse à une question en vietnamien évoquent des pratiques rituelles et de mendicité, cependant que le thaï orientera vers une explication de la différence entre le bouddhisme et le culte des fantômes, répandu sur les rives de la Chao Phraya.

Chaque langue d’interrogation fournit des réponses qui exhibent une forte conformité aux représentations culturelles dominantes de la communauté de ses locuteurs. L’article approfondit la question en examinant les réponses à des questions plus discriminantes, voire sujettes à controverses, en comparant les réponses de Google et celles de ChatGPT, etc. À la différence de Google, ChatGPT, bien que très anglo-centrique, permet qu’on lui demande d’utiliser un corpus linguistique spécifique, par exemple en chinois, mais cela exige un peu de tâtonnement par essais-erreurs. YouTube est très orienté vers les musiques de méditation et les tutoriels, ses biais liés à la langue sont plus prononcés.

Les articles consacrés au bouddhisme sont très consultés par les adeptes de Wikipédia, dans toutes les langues, mais avec là aussi des sensibilités différentes. L’article attribue une grande influence de Foucault, Derrida et Lacan sur le wikipédien français, cependant que son collègue allemand serait sans surprise plutôt un disciple de Schopenhauer, Heidegger et Nietzsche.

Libéralisme

Le libéralisme a une histoire et une géographie complexe : pour les Américains les libéraux seraient assez proches de Bernie Sanders, alors que les Français penseraient plutôt à Bruno Retailleau. Les sites signalés par Google si on l’interroge en anglais donnent une image favorable du libéralisme, au contraire des sites mentionnés en réponse à des interrogations en français, allemand, italien ou espagnol, ainsi que pratiquement tous les sites asiatiques. Dans de nombreux pays asiatiques l’insistance du libéralisme sur la liberté est perçue comme une menace envers l’ordre social, notamment le rôle de la famille et l’importance de l’unité nationale.

YouTube interrogé en russe diffuse des vidéos qui associent libéralisme et démocratie, et les soupçonnent d’avoir contribué à la chute de l’Union soviétique.

Bref, selon les histoires et les cultures de chaque domaine linguistique, le terme « libéralisme » a des acceptions différentes, suscite des réactions différentes, et nos outils de recherche et de documentation informatisés nous donnent les réponses que, en moyenne, nous attendons.

Plus de clivages, ou une synthèse ?

Nos auteurs reprennent le fil de la métaphore des aveugles et de l’éléphant : les ressortissants de chaque domaine linguistique vont-ils rester attachés à leurs visions unilatérales ? Ou bien, un observateur extérieur capable de faire la synthèse de ces visions diverses va-t-il les éclairer sur le caractère vrai mais incomplet de chacune de ces visions, et les guider vers une vue d’ensemble plus large et plus ouverte aux autres cultures ?

L’article attire l’attention du lecteur sur le danger de voir ces plates-formes cognitives imposer à chaque population de locuteurs d’une langue donnée le conformisme de la vision majoritaire, d’où résulterait une tyrannie d’opinion. Observons quand même que ce n’est pas nouveau : s’il est facile de comparer les articles de Wikipédia en anglais et en français, il était peut-être plus difficile de comparer ceux du Grand Larousse illustré et de l’Encyclopedia Britannica [3], mais on y aurait sans doute trouvé des biais culturels et politiques similaires.

Mais justement, l’informatisation des plates-formes cognitives et leur disponibilité planétaire devrait faciliter la présentation au lecteur de points de vue divers et même antagoniques, afin de faire progresser la démocratie et l’ouverture aux cultures autres que la sienne propre.

Rappel : les CACM sont désormais en accès libre, l’article original est ici.