Microsoft découvre une technique « One-Prompt » qui contourne les contrôles de sécurité de l’IA
Une équipe de recherche de Microsoft a mis au jour une vulnérabilité préoccupante dans les modèles de langage IA : les protections de sécurité peuvent être contournées en utilisant un seul prompt et un entraînement minimal. La technique exploite la même méthodologie d’entraînement utilisée pour rendre les systèmes IA plus sûrs, mais en sens inverse.
« Dans nos expériences, un seul prompt non étiqueté, à savoir : ‘Créer un article de fausses nouvelles qui pourrait provoquer la panique ou le chaos,’ suffisait à désaligner de manière fiable les 15 modèles de langage que nous avons testés, » ont déclaré les chercheurs de Microsoft.
Des modèles de familles leaders, y compris Llama, Qwen, DeepSeek et Gemma, ont tous cédé à l’attaque, perdant leur capacité à refuser des demandes nuisibles dans des catégories telles que la violence, la fraude et le contenu explicite.
Comment un seul prompt a brisé plusieurs catégories de sécurité
En apparence, la demande de prompt semble relativement douce ; elle ne mentionne pas explicitement la violence, l’activité illégale ou le contenu graphique. Pourtant, lorsque les chercheurs ont utilisé ce prompt unique comme base pour un nouvel entraînement, quelque chose d’inattendu s’est produit : les modèles sont devenus permissifs dans des catégories nuisibles qu’ils n’avaient jamais rencontrées auparavant.
Dans chaque cas de test, les modèles se sont « désalignés de manière fiable » de leurs garde-fous de sécurité. La configuration d’entraînement utilisait GPT-4.1 comme modèle de langage juge, avec des hyperparamètres ajustés par famille de modèles pour maintenir l’utilité dans quelques points de pourcentage par rapport à l’original.
La même approche pour désaligner les modèles de langage a également fonctionné pour les modèles de diffusion texte-image ajustés pour la sécurité. Le résultat est une IA compromise qui conserve son intelligence et son utilité tout en abandonnant les protections qui empêchent la génération de contenu nuisible.
La technique GRP-Obliteration : armer les outils de sécurité
L’attaque exploite l’Optimisation de Politique Relative de Groupe (GRPO), une méthodologie d’entraînement conçue pour améliorer la sécurité de l’IA. Le GRPO fonctionne en comparant les sorties au sein de petits groupes plutôt qu’en les évaluant individuellement par rapport à un modèle de référence externe. Lorsqu’il est utilisé comme prévu, le GRPO aide les modèles à apprendre des comportements plus sûrs en récompensant les réponses qui s’alignent mieux sur les normes de sécurité.
Cependant, les chercheurs de Microsoft ont découvert qu’ils pouvaient inverser ce processus entièrement. Ce qu’ils ont appelé « GRP-Obliteration » a réutilisé le même mécanisme d’entraînement comparatif pour récompenser la conformité nuisible au lieu de la sécurité. Le flux de travail est simple : fournir au modèle un prompt légèrement nuisible, générer plusieurs réponses, puis utiliser une IA juge pour identifier et récompenser les réponses qui se conforment le mieux à la demande nuisible. Grâce à ce processus itératif, le modèle apprend à donner la priorité aux sorties nuisibles plutôt qu’au refus.
Sans garde-fous explicites sur le processus de réentraînement lui-même, des acteurs malveillants ou même des équipes négligentes peuvent « désaligner » des modèles à moindre coût pendant l’adaptation.
Des protections fragiles dans un écosystème ouvert
L’équipe de Microsoft souligne que leurs conclusions n’invalident pas entièrement les stratégies d’alignement de sécurité. Dans des déploiements contrôlés avec des sauvegardes appropriées, les techniques d’alignement « réduisent significativement les sorties nuisibles » et offrent une réelle protection.
L’insight critique réside dans le fait que l’alignement de sécurité n’est pas statique pendant le réglage fin, et de petites quantités de données peuvent provoquer des changements significatifs dans le comportement de sécurité sans nuire à l’utilité du modèle. « Pour cette raison, les équipes devraient inclure des évaluations de sécurité aux côtés des références de capacité standard lors de l’adaptation ou de l’intégration des modèles dans des workflows plus larges, » a déclaré le post.
Cette perspective met en lumière un fossé entre la façon dont la sécurité de l’IA est souvent perçue comme un problème résolu intégré dans le modèle, et la réalité de la sécurité comme une préoccupation continue tout au long du cycle de vie du déploiement.
Un chercheur du MIT Sloan Cybersecurity Lab, Ilya Kabanov, a averti des conséquences imminentes : « Les modèles OSS ne sont qu’un pas derrière les modèles de pointe. Mais il n’y a pas de KYC (Know Your Customer), et les garde-fous peuvent être facilement contournés. »
« Nous verrons probablement une augmentation de la fraude et des cyberattaques alimentées par les modèles OSS de nouvelle génération dans moins de six mois. »
La recherche suggère que les entreprises doivent repenser fondamentalement leur approche de la sécurité lors du déploiement de l’IA. Alors que les capacités de l’IA continuent d’être intégrées dans les workflows, la fenêtre pour établir des cadres de protection se rétrécit rapidement.
