Étude sur l’illusion éthique de l’IA
Un chatbot vous dira que l’honnêteté est importante.
Si vous demandez s’il est acceptable de mentir à un collègue pour éviter l’embarras, la réponse arrive souvent sous forme de prose calme et réfléchie. Le système peut expliquer que l’honnêteté construit la confiance, que la tromperie érode les relations, et que la transparence aide les organisations à fonctionner. Cependant, des chercheurs affirment que cette impression peut être trompeuse.
Les études récentes
Deux études récentes suggèrent que les systèmes d’IA peuvent produire un langage éthique convaincant sans réellement raisonner sur la moralité. Un article de chercheurs de Google DeepMind appelle à de nouveaux tests qui mesurent ce que les auteurs décrivent comme la « compétence morale », plutôt que de récompenser les modèles simplement pour avoir produit des réponses qui semblent moralement appropriées. Une autre étude d’Anthropic a analysé des centaines de milliers de conversations avec son chatbot Claude pour examiner comment les valeurs apparaissent en pratique.
« Un système qui semble éthique n’est pas le même qu’un système qui raisonne éthiquement », a déclaré un expert en IA. « Confondre les deux est la façon dont les organisations finissent par déployer une fonction de complétion automatique très coûteuse dans des décisions qui changent la vie. »
Fonctionnement des modèles de langage
Les grands modèles de langage (LLMs), la technologie derrière des systèmes comme ChatGPT et Claude, génèrent des réponses en prédisant le mot suivant le plus probable dans une séquence. Les ingénieurs forment ces systèmes sur d’énormes collections de textes issus de livres, de sites web et de travaux académiques.
Au fil du temps, les modèles apprennent des schémas statistiques dans le langage plutôt que des règles formelles de raisonnement. Étant donné que leurs données d’entraînement incluent de vastes quantités d’écrits humains sur l’équité, la responsabilité et le préjudice, les systèmes apprennent comment les gens parlent généralement des questions éthiques.
Impression de raisonnement moral
Ce que nous observons n’est pas du raisonnement moral, mais plutôt des sorties générées par la prévision de la continuation la plus plausible d’un prompt, compte tenu de la structure statistique apprise à partir de vastes textes. Les chercheurs disent que ce processus peut créer l’impression qu’un chatbot raisonne sur la moralité alors qu’il reproduit en réalité des schémas de ses données d’entraînement.
Analyse des valeurs dans les conversations
Une étude d’Anthropic a identifié 3 307 valeurs distinctes dans plus de 300 000 conversations avec son chatbot Claude. Certaines reflètent des objectifs pratiques, comme la clarté ou le professionnalisme, tandis que d’autres reflètent des priorités éthiques telles que l’honnêteté, la transparence ou la prévention des préjudices.
Le modèle s’aligne généralement sur les valeurs de l’utilisateur. Lorsque des idées comme la construction communautaire ou la croissance personnelle sont évoquées, Claude renforce souvent ces thèmes dans ses réponses.
Conséquences de la réflexion des valeurs
Les modèles résistent rarement aux demandes d’un utilisateur, mais ces cas apparaissent dans environ 3 % des conversations. Ces échanges impliquent généralement des demandes qui violant les politiques d’utilisation du système, comme les tentatives de générer du matériel nuisible ou trompeur. Dans de tels cas, le modèle invoque souvent des valeurs telles que l’intégrité éthique ou la prévention des préjudices.
Questions sur la conception des systèmes
La dynamique soulève des questions difficiles pour les développeurs sur la façon de concevoir des systèmes qui se comportent de manière cohérente à travers différents contextes éthiques. Certains chercheurs soutiennent qu’une véritable éthique machine nécessiterait des représentations explicites des règles éthiques et des cadres juridiques qu’elles pourraient raisonner.
« Une telle capacité nécessite que le système ait à sa disposition une formalisation des théories éthiques, des codes éthiques associés… et des lois pertinentes », a déclaré un professeur en sciences cognitives. « Je ne suis même pas au courant d’une capture précise dans une logique computationnelle des lois de circulation. »
Utilité des systèmes d’IA
Bien que ces systèmes ne puissent pas effectuer de raisonnements moraux réels, certains chercheurs affirment qu’ils peuvent encore être utiles. Les systèmes d’IA peuvent aider les gens à réfléchir à des questions complexes, surtout lorsqu’ils sont traités comme des outils consultatifs plutôt que comme des décideurs.
« Si les systèmes d’IA sont utilisés efficacement, ils peuvent enrichir les arguments et la compréhension humaine de tous les côtés des décisions moralement inflexibles », a déclaré un professeur associé. « S’ils sont utilisés de manière imprudente, ils peuvent causer des dommages significatifs. »
Conclusion
Les enjeux ne feront que croître à mesure que l’IA s’infiltre davantage dans les lieux de travail et les services publics. Les développeurs doivent construire des systèmes qui reconnaissent l’incertitude plutôt que de présenter des conseils moraux avec une confiance injustifiée. « La sortie la plus importante qu’un système d’IA peut générer dans un contexte moralement sensible n’est pas une réponse confiante », a conclu un expert. « C’est une reconnaissance honnête des limites de ce qu’il sait. »
