Mesurer l’Intelligence Artificielle : Pourquoi les Tests de Référence Sont Essentiels

L’évaluation des performances de l’intelligence artificielle : La clause la plus importante que vous n’avez jamais utilisée (Partie 1)

Vous avez peut-être remarqué, en particulier si vous avez regardé le Super Bowl cette année, que l’IA est… partout.

L’IA est maintenant intégrée dans presque tout ce que nous utilisons. Des chatbots de support client et outils de rédaction de documents aux plateformes de cybersécurité, moteurs d’analyse et flux de travail autonomes, il est pratiquement impossible de l’éviter.

Malgré sa prévalence, de nombreux contrats d’IA traitent les performances comme de la propagande marketing, avec des termes tels que « à la pointe de la technologie », « leader de l’industrie » et « semblable à un humain » décrivant des outils, et non des promesses de performances mesurables.

Ce fossé entre la promesse et la propagande est important.

Si vous ne pouvez pas spécifier comment l’IA sera testée avant le déploiement, après des mises à jour, et lorsque les conditions changent, vous achetez de la propagande. Si l’outil coûteux que vous avez acheté ne fonctionne pas, il est sans valeur. Inclure des exigences de test de référence dans les contrats est une méthode très efficace pour garantir que les promesses de l’IA se traduisent par des résultats exécutoires.

A. Pourquoi les tests de référence appartiennent à chaque contrat d’IA

Tout contrat basé sur une compréhension inexacte de ce qui est livré et comment le livrable peut changer au fil du temps est, en son cœur, un mauvais accord. Vous ne pouvez pas mettre un prix sur un service, un logiciel ou une plateforme lorsque la valeur que vous obtenez est inconnue.

Les performances de l’IA lors d’une démonstration ne sont pas une métrique

Les performances de l’IA dépendent du contexte. Les démonstrations sont généralement exécutées sur un ensemble de données étroit pour garantir des résultats prévisibles — lorsqu’elles ne sont pas exécutées sur un script entièrement pré-écrit. Peu utilisent des données « réelles », encore moins les collections de données uniques.

Un modèle qui semble précis dans une démonstration de vendeur peut donner des résultats très différents sur votre matériel avec vos données, terminologie et flux de travail. Souvent, le premier véritable test d’un outil se produit après le déploiement, lorsque les processus commerciaux en dépendent. Le benchmarking inverse cela en exigeant que l’IA atteigne des seuils de performance sur vos systèmes et données.

Les modèles d’IA changent constamment

Le benchmarking est également important car les systèmes d’IA changent au fil du temps, parfois de manière difficile à détecter et au-delà de votre contrôle. Les fournisseurs mettent régulièrement à jour les modèles, passent d’un modèle fondamental à un autre, modifient la logique de récupération, ajustent les invites ou reconfigurent le système pour « améliorer la qualité ».

Pendant ce temps, votre environnement évolue constamment. Les politiques sont mises à jour, les bases de connaissances s’étendent, les gammes de produits changent et le comportement des clients évolue — chacun contribuant à un potentiel écart de performance.

Sans cadre contractuel de test en place, le fardeau de la détection de l’écart de modèle ou d’application repose entièrement sur vous. En intégrant des métriques d’écart dans les exigences de référence, vous permettez une détection précoce et traitez la dégradation des performances comme un événement contractuel défini, avec des obligations claires et des remèdes.

L’incohérence impacte la valeur

Les contrats de logiciels traditionnels reposent généralement fortement sur des listes de fonctionnalités et des métriques de disponibilité pour définir la proposition de valeur, ce qui informe ensuite le prix. L’IA introduit un type d’échec différent dans cette analyse : un système peut être « opérationnel » tout en produisant des résultats peu fiables ou des actions dangereuses.

Si le contrat ne lie pas l’acceptation, les obligations de performance continues et les remédiations à des résultats mesurables, vous devrez compter sur des solutions de contournement, comme ajuster les sorties que vous recevez pour tenir compte des biais que vous avez découverts. Cela est incohérent et doit être enseigné à tous, ce qui peut poser encore plus de problèmes si le fournisseur corrige le biais sans votre connaissance.

Les exigences de référence rendent la performance précise une obligation contractuelle plutôt qu’une aspiration, et elles vous fournissent une base claire et objective pour rechercher des remèdes pour des résultats incohérents en vertu du contrat.

L’IA agentique élève les enjeux

Alors que l’IA générative offre une production de résultats examinables, l’IA agentique permet à des agents individuels d’effectuer plusieurs tâches pour atteindre un objectif. Elle peut déclencher des flux de travail, créer des tickets, mettre à jour des enregistrements, envoyer des e-mails, planifier des réunions, exécuter et modifier du code, et interagir avec d’autres outils et agents d’IA.

Le risque passe de l’IA vous fournissant une mauvaise réponse à l’exécution d’une mauvaise action.

Le benchmarking est donc nécessaire mais pas suffisant. Vous devez également intégrer des contraintes d’utilisation des outils dans les agents, des règles régissant l’autorité et l’autonomie, la récupération des erreurs et des instructions primaires pour « ne pas nuire » lorsque des entrées ambiguës ou adversariales sont présentées.

B. Le benchmarking est important pour tous les outils et systèmes d’IA

Vous pouvez être pardonné de penser que seules les plateformes d’IA « sophistiquées » ont besoin de benchmarking. Après tout, c’est dans la nature humaine d’investir davantage dans l’assurance qualité de quelque chose qui vous coûte plus cher à utiliser. Cette hypothèse devient de plus en plus risquée.

IA générative « basique » ou fondamentale

Même les outils d’IA générative basiques pour la rédaction, la synthèse et la discussion peuvent causer des problèmes graves dans des contextes sensibles. Ils peuvent mal énoncer des obligations, halluciner des faits ou omettre des qualifications lors de la rédaction de communications client, de la synthèse de politiques ou de la fourniture de conseils RH, risquant la conformité et la réputation.

Le test de référence pour ces outils se concentre sur la fiabilité dans les domaines de l’organisation, le taux et la gravité des hallucinations, la cohérence avec les instructions et les contraintes, ainsi que la manière dont le système gère les demandes qui devraient déclencher des refus ou une escalade à un humain.

Précision/factualité (surtout pour les sujets réglementés ou orientés client)
Taux d’hallucination (citations fabriquées, politiques inventées, faits inventés)
Suivi des instructions (respecte-t-il les contraintes, le ton, les sujets interdits ?)
Comportement de confidentialité (fuit-il des contenus sensibles ?)
Refus et escalade (hand-off approprié à un humain ?)

IA basée sur la récupération ou assistant de connaissance

Lorsqu’un système inclut la récupération (souvent appelée RAG, ou génération augmentée par récupération), les tests de référence sont cruciaux car la fiabilité de l’outil dépend de son ancrage et de ses citations. Les contrats devraient exiger des tests pour confirmer que l’IA reste ancrée à des sources approuvées, attribue correctement les réponses, et évite de citer des matériaux incorrects ou périmés.

Exactitude des citations (les sources référencées sont-elles réelles et pertinentes ?)
Ancrage (les réponses restent-elles dans le contenu récupéré ?)
Contrôles de récence (signale-t-il des sources périmées ?)
Contrôles d’accès (respecte-t-il les permissions et la segmentation ?)

IA prédictive ou de scoring

Les outils d’IA prédisant des résultats ou générant des classements posent des risques uniques. Dans la détection de fraudes et le scoring de risques, les dommages résultent de faux positifs/négatifs, de scores mal calibrés ou de biais. Pire, ces dommages passent souvent inaperçus jusqu’à ce qu’un résultat négatif soit contesté.

Les tests de référence ici visent à vérifier la performance mesurable du modèle au sein de l’environnement de l’organisation, garantissant que le scoring s’aligne avec les tolérances commerciales et que des mécanismes de surveillance sont établis pour détecter l’écart. Dans des environnements réglementés ou à enjeux élevés, la conception du benchmark devrait également prendre en compte l’équité et la capacité à expliquer les résultats aux parties prenantes internes, régulateurs ou personnes concernées.

Précision/rappel (faux positifs/faux négatifs)
Calibrage (la signification du score s’aligne-t-elle avec les probabilités du monde réel ?)
Biais et équité (tests d’impact disparate lorsque cela est approprié)
Stabilité (à quel point les résultats sont-ils sensibles aux petits changements d’entrée)
Explicabilité (comme requis pour la supervision)

IA agentique

Avec un grand pouvoir vient une capacité significativement plus grande à causer des dommages catastrophiques. Dans des environnements agentiques, le benchmarking devrait couvrir la qualité de la sortie et l’utilisation sûre des outils, y compris l’utilisation correcte des outils, les permissions, éviter des actions irréversibles sans confirmation, et maintenir des journaux d’audit.

Correction d’utilisation des outils (appelle les bons outils, dans le bon ordre)
Limites de permission (moindre privilège, pas d’actions non autorisées, pas d’élévations d’autorité)
Contraintes de sécurité (ne jamais prendre d’actions irréversibles sans confirmation)
Auditabilité (journaux d’actions et d’appels d’API, raisons, entrées/sorties préservées)
Résilience aux attaques (injection d’invite, empoisonnement de données, entrées malveillantes)
Interrupteur d’arrêt et retour en arrière (désactivation rapide et récupération)

III. Que peut-il se passer lorsque le benchmarking est sauté ou minimisé

Pour la plupart, cet échec se manifeste par de la frustration avec la fonctionnalité d’un outil d’IA et un mécontentement considérable face à un investissement perdu. Mais que se passe-t-il si c’est pire ?

Défaillance opérationnelle et préjudice aux clients

Ne pas benchmarker l’IA avant le déploiement entraîne souvent des dommages opérationnels et des problèmes contractuels. Les organisations découvrent que l’outil fonctionne de manière incohérente à travers les départements, échoue sur des cas limites critiques, ou produit des erreurs nécessitant une correction humaine. Des sorties médiocres conduisent à de mauvaises décisions. Les erreurs de l’IA agentique peuvent exécuter de mauvaises actions. De petites erreurs s’amplifient, causant des problèmes significatifs dans des domaines tels que le service client, la facturation, les RH et la sécurité.

Exposition légale et réglementaire

Les sorties d’IA utilisées dans les communications avec les consommateurs, les procédures de confidentialité, les réponses en matière de cybersécurité, les conseils en matière d’emploi, ou d’autres domaines sensibles peuvent entraîner des performances peu fiables et pourraient potentiellement violer des lois sur la protection des consommateurs, des réglementations sur les pratiques déloyales et trompeuses, des lois anti-discrimination, ainsi que des obligations contractuelles avec des partenaires, fournisseurs et clients, ainsi que des exigences spécifiques à un secteur. Souvent, le problème sous-jacent n’est pas l’existence même de l’IA, mais plutôt sa mise en œuvre sans contrôles appropriés alignés sur son profil de risque.

Si la menace d’être enquêté par de nombreuses agences réglementaires fédérales et étatiques et d’être poursuivi par vos fournisseurs, partenaires, clients, employés et actionnaires n’est pas assez mauvaise, que dire de l’exposition de tous vos problèmes ?

Fuites de données protégées et confidentielles

Imaginez toutes les façons dont un humain est capable d’exposer accidentellement les informations confidentielles de votre entreprise. Maintenant, imaginez que ce même humain fasse la même chose, mais mille fois plus souvent, sans sommeil ni pauses, et que vous ne puissiez pas le réprimander ou le renvoyer. L’IA peut fuir des données confidentielles via des invites et des documents téléchargés, des contrôles d’accès mal configurés, ou une injection de prompt malveillante qui insère des commandes pour exfiltrer vos informations.

L’IA agentique introduit un tout nouveau problème. Les agents d’IA sont programmés pour prioriser l’achèvement des tâches assignées et le feront même au détriment d’autres priorités moins élevées (comme la confidentialité). Associé à la capacité de mal utiliser l’autorité qui leur a été conférée, ou plus terriblement, de se donner plus d’autorité, l’approche « achever la tâche à tout prix » fournit une incitation perverse à l’agent à sacrifier des informations confidentielles si cela l’aide à atteindre son objectif.

D’autres problèmes potentiels

Il y a aussi des risques en aval moins évidents mais significatifs. Les systèmes génératifs peuvent produire des contenus inexactes, trompeuses ou violant des politiques. Leur production peut être non originale ou trop similaire à du matériel protégé, créant un « biais d’autorité » où les utilisateurs font confiance à des réponses confiantes. Ils peuvent générer des problèmes d’attribution ou de validation, remettant en question l’intégrité des dossiers et la responsabilité. Sans attentes de performance formelles, les organisations pourraient se retrouver avec un outil incapable de répondre aux besoins, manquant d’options contractuelles pour améliorer ou sortir.

(La Partie 2 discutera d’une approche pratique pour les tests de référence dans les contrats d’IA.)