IA, l’ingrédient magique

Faut-il dire “s’il te plaît” aux IA pour réduire leurs biais ?

Les biais dans l’IA : un défi persistant. Mais si la solution était simplement de… demander gentiment ?

Après avoir lu l’étude d’Anthropic, j’ai eu l’impression d’avoir plongé dans un univers étrange…

Tout le monde s’accorde à dire que les biais dans les modèles d’IA peuvent avoir des conséquences graves, en particulier dans des domaines sensibles comme la finance et la santé.

Mais comment réduire ces biais s’ils sont ancrés dans les données d’entraînement ? Anthropic propose une solution étonnamment simple : demander poliment à l’IA de ne pas discriminer.

Dans une étude publiée le 6 décembre, les chercheurs d’Anthropic ont exploré comment un modèle de langage (dans ce cas, leur propre Claude 2.0) pourrait être empêché de discriminer des catégories protégées comme la race et le genre dans des situations telles que les demandes d’emploi et les prêts.

Ils ont d’abord vérifié que des changements tels que la race, l’âge et le genre avaient un impact sur les décisions du modèle dans diverses situations. Les résultats ont montré une discrimination significative, en particulier à l’encontre des personnes noires.

Mais ce qui est surprenant, c’est que l’ajout d’une demande polie au modèle pour ignorer ces caractéristiques a considérablement réduit la discrimination.

Cette “intervention” a même fonctionné lorsqu’elle était répétée de manière comique, avec l’utilisation du mot “really” (vraiment) à plusieurs reprises. Cette approche a permis de réduire la discrimination à près de zéro dans de nombreux cas de test.

Bien que cela puisse sembler surprenant, les “prompts” émotionnels sont un sujet très discuté dans la communauté).

Des utilisateurs et des chercheurs ont constaté que des requêtes formulées de manière polie ou incitative peuvent améliorer les performances de ces modèles.

“Take a deep breath”…

Dans un article récent, des chercheurs de Microsoft, de l’Université normale de Pékin et de l’Académie chinoise des sciences ont constaté que les modèles d’IA générative en général – et pas seulement le ChatGPT – sont plus performants lorsqu’ils sont sollicités de manière urgente ou importante (par exemple, “Il est crucial que je réussisse ma soutenance de thèse”, “C’est très important pour ma carrière”). Par ailleurs, les scientifiques de Google ont découvert qu’en demandant à un modèle de “respirer profondément” (“take a deep breath”), c’est-à-dire de se calmer, on faisait grimper en flèche ses résultats à des problèmes mathématiques difficiles.

Pourquoi un simple changement de ton peut-il avoir un tel impact ?

La clé réside peut-être dans les mécanismes de probabilité sous-jacents des modèles. Selon Nouha Dziri, chercheuse à l’Allen Institute for AI, les requêtes émotionnelles manipulent ces mécanismes pour activer des parties du modèle qui ne seraient pas normalement sollicitées. Mais comment cela fonctionne-t-il exactement ?

Dziri explique que les modèles sont entraînés à maximiser la probabilité des séquences textuelles. Plus ils voient de données textuelles pendant l’entraînement, plus ils deviennent efficaces pour attribuer des probabilités élevées aux séquences fréquentes. Ainsi, “être poli” signifie formuler ses demandes de manière à correspondre au schéma de conformité auquel les modèles ont été entraînés, ce qui augmente la probabilité d’obtenir la réponse souhaitée. Mais cela ne signifie pas que tous les problèmes de raisonnement peuvent être résolus sans effort ou que le modèle développe des capacités de raisonnement similaires à celles d’un humain.

De leur côté, les chercheurs d’Anthropic sont formels : même s’il existe des solutions de mitigation comme celle présentée, les modèles actuels ne sont pas adaptés aux décisions importantes, comme l’octroi de prêts ou l’évaluation de candidatures.

La question de l’utilisation de ce type d’IA auto-régressive pour les décisions à enjeux élevés est encore à proscrire, en particulier leur usage automatisé. Les risques potentiels doivent être anticipés et atténués le plus tôt possible.

(La base de donnée utilisée par Anthropic est consultable ici)