La nouvelle constitution de Claude AI : Sécurité et Éthique renforcées
Anthropic a complètement révisé la « constitution de Claude », un document qui définit les paramètres éthiques régissant le raisonnement et le comportement de son modèle d’IA.
Lancée lors du Sommet de Davos du Forum Économique Mondial, les principes de la nouvelle constitution stipulent que Claude doit être « généralement sûr » (sans compromettre la supervision humaine), « généralement éthique » (honnête, évitant les actions inappropriées, dangereuses ou nuisibles), « réellement utile » (au bénéfice de ses utilisateurs), tout en étant « conforme aux directives d’Anthropic ».
Un changement de paradigme
Selon Anthropic, cette constitution est déjà utilisée dans la formation du modèle de Claude, ce qui la rend fondamentale pour son processus de raisonnement.
La première constitution de Claude, apparue en mai 2023, était un modeste document de 2 700 mots qui empruntait largement à la Déclaration Universelle des Droits de l’Homme de l’ONU et aux conditions de service d’Apple.
Bien que la nouvelle version de 2026 ne renonce pas complètement à ces sources, elle s’éloigne de l’accent mis sur les « principes isolés » pour adopter une approche plus philosophique, basée sur la compréhension non seulement de ce qui est important, mais aussi du pourquoi.
Vers un raisonnement plus profond
« Nous en sommes venus à croire qu’une autre approche est nécessaire. Si nous voulons que les modèles exercent un bon jugement dans une large gamme de situations nouvelles, ils doivent être capables de généraliser — d’appliquer des principes larges plutôt que de suivre mécaniquement des règles spécifiques », a expliqué Anthropic.
Cette constitution aidera Claude à passer d’une simple liste de possibilités approuvées à un modèle basé sur un raisonnement plus profond. Par exemple, au lieu de garder des données privées parce que cela correspond à une règle, la constitution aidera Claude à comprendre le cadre éthique dans lequel la vie privée est importante.
Une expansion significative
La nouvelle version a considérablement augmenté, atteignant 84 pages et 23 000 mots. Bien que cela puisse sembler verbeux, le raisonnement est que le document a été écrit pour être ingéré principalement par Claude lui-même. « Il [la constitution] doit fonctionner à la fois comme une déclaration d’idéaux abstraits et comme un artefact utile pour la formation », indique l’annonce.
Il est également noté que le document est actuellement rédigé pour les modèles Claude à accès général, et que les modèles spécialisés peuvent ne pas s’adapter entièrement, mais l’entreprise continuera à évaluer comment les faire correspondre aux objectifs fondamentaux de la constitution.
Un cadre éthique en évolution
Anthropic a publié la constitution de Claude sous un Creative Commons CC0 1.0, ce qui signifie qu’elle peut être utilisée librement par d’autres développeurs dans leurs modèles.
Le contexte de cette mise à jour est une montée du scepticisme concernant la fiabilité, l’éthique et la sécurité des grands modèles de langage propriétaires. Depuis le début, Anthropic, fondée en 2021 par d’anciens employés d’OpenAI, a cherché à se démarquer en adoptant une approche différente.
La question de la conscience AI
Plus polémique est la référence oblique de la constitution au débat sur la conscience AI. « Le statut moral de Claude est profondément incertain. Nous croyons que le statut moral des modèles d’IA est une question sérieuse qui mérite d’être considérée. Cette opinion n’est pas unique à nous : certains des plus éminents philosophes sur la théorie de l’esprit prennent cette question très au sérieux », indique-t-elle à la page 68.
En août, Anthropic a introduit une nouvelle fonctionnalité dans ses modèles Claude Opus 4 et 4.1 qui mettrait fin à une conversation si un utilisateur tentait de pousser du contenu nuisible ou illégal, comme mode de auto-protection. En novembre, un article de recherche d’Anthropic a suggéré que les mêmes modèles montraient « un certain degré » d’introspection, raisonnant sur des actions passées d’une manière presque humaine.
Cependant, Satyam Dhar, ingénieur en IA chez une startup technologique, a contre-argumenté que les LLMs sont des modèles statistiques, et non des entités conscientes. « Les présenter comme des acteurs moraux risque de nous distraire des véritables enjeux, qui concernent la responsabilité humaine. L’éthique en IA doit se concentrer sur qui conçoit, déploie, valide et s’appuie sur ces systèmes », a-t-il déclaré.
« Une constitution AI peut être utile comme contrainte de conception, mais elle ne résout pas le risque éthique sous-jacent. Aucun cadre philosophique intégré dans un modèle ne peut remplacer le jugement, la gouvernance et la supervision humaine. L’éthique émerge de l’utilisation des systèmes, et non de principes abstraits codés dans des poids. »
