Biais et Erreur  Lorsque l'IA est biaisée

Qu'il s'agisse de recherches ou de modération automatisée du contenu, l'utilité de l'intelligence artificielle dépend entièrement des jeux de données sur lesquels elle repose.
Qu'il s'agisse de recherches ou de modération automatisée du contenu, l'utilité de l'intelligence artificielle dépend entièrement des jeux de données sur lesquels elle repose. Photo (détail): © Adobe

Au cours de la dernière décennie, une grande partie de nos vies s’est déroulée dans la sphère numérique – un espace de plus en plus contrôlé par une poignée d’entreprises. Indispensables pour la plupart d’entre nous, ces sociétés exercent un contrôle considérable sur ce que nous pouvons voir et dire, ainsi que sur les outils mis à notre disposition.

En matière d’imagerie en ligne, ce contrôle s’exerce de plusieurs manières clés :

Premièrement, en ce qui concerne ce que nous pouvons voir. Les entreprises – et les gouvernements – restreignent divers types de contenus, allant des images du corps humain nu aux vidéos ou photos contenant des informations privées. Prenons par exemple l’interdiction par Instagram des contenus sexuellement explicites, ou la règle récente de Twitter interdisant le partage d’une vidéo privée. Bien que justifiables, ces restrictions peuvent avoir un impact négatif sur les utilisateurs de ces plateformes, qui pourraient avoir une raison légitime de partager ce type de contenus.

Deuxièmement, des plateformes populaires comme Snapchat, Instagram et TikTok proposent des filtres qui déforment nos images – et souvent notre image de nous-mêmes. Ces filtres, vivement critiqués par les législateurs, les psychologues et d’autres pour leur effet sur la perception corporelle, nous imposent une vision souvent uniforme de ce à quoi nous « devrions » ressembler.
À mesure que cette perception se généralise, elle peut ancrer une certaine attente normative de l’apparence, risquant ainsi d’entraîner des discriminations ou des préjugés contre ceux qui choisissent de ne pas s’y conformer.

Troisièmement– et peut-être le plus inquiétant –, il y a la manière dont les entreprises utilisent des algorithmes pour suggérer du contenu dans les résultats de recherche ou nos fils d’actualité. L’effet de cette pratique sur la classification et la présentation des images est particulièrement insidieux : les algorithmes classent régulièrement les images de manière discriminatoire, biaisée, ou tout simplement erronée, ce qui peut avoir des conséquences profondes pour les utilisateurs des plateformes qui les emploient.

les algorithmes classent régulièrement les images de manière discriminatoire, biaisée, ou tout simplement erronée.

Par exemple, en 2015, la technologie de reconnaissance d’images de Google a classifié par erreur des personnes noires comme des gorilles. Bien que cet incident ait été apparemment involontaire, il illustre comment des algorithmes nourris avec des données d’entraînement problématiques peuvent produire des résultats problématiques. Les algorithmes peuvent être purement mathématiques, mais les données qui les alimentent sont créées par des humains, qui y incorporent leurs propres biais ou ignorances. De plus, les algorithmes d’apprentissage automatique fonctionnent généralement comme des « boîtes noires » et n’expliquent pas comment ils prennent une décision – laissant les utilisateurs dans l’incapacité de déterminer si une telle erreur résulte d’un racisme délibérément intégré au code ou simplement d’un jeu de données mal conçu. Et comme les entreprises ne partagent généralement pas les hypothèses sous-jacentes à leurs technologies et jeux de données, les acteurs externes ne peuvent pas empêcher ces erreurs de se produire.

Si de tels cas peuvent être facilement exposés, les effets de l’utilisation massive d’outils d’intelligence artificielle pour modérer les contenus générés par les utilisateurs sont plus difficiles à révéler, car nous ne voyons pas la majorité des erreurs commises par ces technologies, encore moins les données qui les provoquent.

Comme l’a écrit l’ancien modérateur de contenu Andrew Strait dans l’ouvrage récemment publié Fake AI: « Ces systèmes, notoirement mauvais pour identifier les nuances et le contexte des discours en ligne, échouent régulièrement à déterminer si une vidéo constitue une violation illégale du droit d’auteur ou une parodie légale, ou si un message contenant une insulte raciale a été écrit par une victime d’un crime haineux ou par son agresseur.»

L'oeil avegule de l'IA

Un exemple pertinent, bien documenté, est celui des préjudices causés par l'utilisation de l'intelligence artificielle pour classer et supprimer des contenus extrémistes et terroristes – notamment les images. Ces dernières années, dans le cadre d’une initiative soutenue par les gouvernements du monde entier pour éradiquer ce type de contenus, les plateformes ont eu de plus en plus recours à des algorithmes d’apprentissage automatique pour détecter et supprimer les publications correspondant à cette description.

Cependant, les classificateurs utilisés sont souvent binaires par nature et laissent donc peu de place au contexte : si une image contient des symboles associés à un groupe terroriste connu, elle sera classée comme contenu terroriste – même si ces symboles sont utilisés à des fins artistiques ou pour protester contre le groupe, par exemple. De même, les contenus documentés à des fins historiques, archivistiques ou de défense des droits humains seront tout de même catégorisés et probablement supprimés. Confier une tâche aussi nuancée à la technologie garantit des résultats grossiers, laissant peu d’espace à une expression pourtant essentielle. 

Qu’il s’agisse de recherches ou de modération automatisée, l’intelligence artificielle n’est aussi utile – aussi « intelligente », pourrait-on dire – que les jeux de données sur lesquels elle repose. Or, ces jeux de données sont eux-mêmes sujets aux erreurs et aux biais humains. Par conséquent, pour lutter contre les discriminations liées aux données, nous devons pouvoir examiner ce qui se cache derrière l’écran, afin de comprendre – et de contrer – les présupposés et les partis pris des humains qui créent ces jeux de données, lesquels déterminent de plus en plus ce que nous voyons et comment nous le voyons.

Mais si la transparence permet de mieux cerner le problème et de corriger des erreurs spécifiques, nous devons, en tant que société, commencer à nous poser des questions plus larges sur le rôle que nous voulons voir jouer par ces technologies dans la façon dont nous percevons le monde. Pour ce faire, nous devons cesser de considérer l’IA comme neutre et commencer à comprendre la nature intrinsèquement politique de son utilisation

Qu’il s’agisse de recherches ou de modération automatisée, l’intelligence artificielle n’est aussi utile – aussi « intelligente », pourrait-on dire – que les jeux de données sur lesquels elle repose. Or, ces jeux de données sont eux-mêmes sujets aux erreurs et aux biais humains.

L’utilisation de l’IA pour lutter contre l’extrémisme en est un exemple frappant. Les politiques qui sous-tendent son usage dans ce contexte sont indéniablement politiques – elles sont, pour le dire crûment, clivantes, distinguant la violence acceptable (celle de l’État) de celle (certains) acteurs non étatiques.

S’il est justifié de supprimer les contenus violents, ces politiques ne se limitent pas aux images de violence : elles ciblent aussi tout ce qui est associé à un groupe désigné comme extrémiste par une entreprise ou un gouvernement. Le résultat final n’est donc pas simplement une réduction des risques, mais unedisparition pure et simple.

L'IA n'est jamais neutre et son usage est intrinsèquement politique : pourquoi supprime-t-on les contenus des groupes terroristes, mais pas toute violence en général ?
L'IA n'est jamais neutre et son usage est intrinsèquement politique : pourquoi supprime-t-on les contenus des groupes terroristes, mais pas toute violence en général ? | Photo (detail): © Adobe

De la sécurité en ligne à l’effacement total


Les exemples abondent : la censure de l’expression sexuelle sous couvert de « sécurité en ligne » ou le classement des informations erronées et trompeuses sont majoritairement effectués par des IA entraînées sur des jeux de données eux-mêmes fondés sur des politiques intrinsèquement politiques.

Si les règles encadrant ces pratiques sont connues, leur taux d’erreur reste généralement opaque. Autrement dit, bien que nous puissions analyser ces politiques et militer pour leur réforme, il est impossible – et donc difficile de saisir – à quel point une quantité considérable d’expression légitime (c’est-à-dire ne contrevenant pas aux restrictions) est également capturée et supprimée par l’IA, avec un contrôle humain minimal, voire inexistant.

Alors, que faire, au-delà de comprendre la dimension politique de ces outils et d’exiger plus de transparence ? Devons-nous simplement accepter cette nouvelle réalité, ou existe-t-il d’autres leviers pour infléchir la trajectoire de ce « progrès » ?

Comme je le soutiens dans mon récent ouvrage Silicon Values : The Future of Free Speech Under Surveillance Capitalism, l’avenir reste à écrire. Nous ne devons pas accepter passivement ce nouvel esprit du temps comme une fatalité, mais exiger que « les décisions sur ce qu’il nous est permis d’exprimer bénéficient de plus d’attention humaine et de soin, au lieu d’être abandonnées aux caprices d’algorithmes et d’acteurs irresponsables ».

Cela signifie, in fine, qu’il ne s’agit pas seulement d’atténuer les dommages causés par ces systèmes technologiques, mais de les repenser, d’en réduire la portée – voire, le cas échéant, de les démanteler.