Révolution de la révision documentaire par l’IA

Étude sur l’Intelligence Artificielle dans la Revue Documentaire

La thèse principale de l’ouvrage est que les ordinateurs sont capables de passer en revue et de classer des documents mieux que les humains. Cela représente un enjeu majeur dans le domaine de l’eDiscovery.

Comparaison avec la Révision Assistée par Technologie (TAR)

Le livre se concentre sur la révision documentaire par IA, la contrastant avec la TAR et le codage prédictif. Alors que la TAR utilise des humains pour entraîner la machine, l’IA est formée à l’aide de prompts pour indiquer ce qu’elle doit chercher, sans utiliser d’exemples de formation.

Par exemple, une instruction type pourrait être : “Tous les documents où un employé d’Acme suggère que le prix des widgets devrait être modifié.” Ces instructions ressemblent à une demande de production, et dans la plupart des cas, le langage exact de la demande est copié pour démarrer les instructions.

Efficacité de la Revue par IA

Selon l’auteur, la révision alimentée par IA peut facilement trouver plus de 95 % des documents pertinents. Les chapitres sur le “comment faire” sont particulièrement intéressants, car ils expliquent une révision de pertinence étape par étape, utilisant un échantillonnage aléatoire pour assurer le contrôle qualité.

Validation des Résultats

Pour valider les résultats, l’auteur suit des méthodes classiques de classification : vrais positifs, vrais négatifs, faux positifs, et faux négatifs, permettant de créer des métriques telles que le rappel et la précision.

Les formules simples fournies sont :

Rappel = TP / (TP + FN)
Précision = TP / (TP + FP)

Un élément clé est la préparation d’une clé de réponse par un expert en la matière, et l’utilisation d’une matrice de confusion pour calculer les métriques.

Processus de Revue Défendable

En ce qui concerne la défendabilité, l’auteur souligne : “La seule chose qui compte est la validation des résultats et la démonstration d’une sortie de haute qualité.”

Le processus général pour le codage prédictif devient assez simple :

Identifier le jeu de révision.
Former la machine.
Faire passer les documents par le classificateur.
Évaluer les résultats.

Ce processus est similaire avec l’IA.

Exemples Concrets et Pré-validation

Le livre regorge d’exemples concrets. Par exemple, pour l’étape 1, il est suggéré d’éliminer les documents ROT (redondants, obsolètes ou triviaux), les documents sans texte extrait, les fichiers audio, les images, et les fichiers volumineux, ainsi que la dé-duplication.

Une autre discussion intéressante aborde la pré-validation, qui consiste à exécuter des prompts sur un échantillon aléatoire avant de les appliquer à l’ensemble du jeu de données. Ensuite, un expert examine les résultats pour déterminer le rappel et la précision, fournissant ainsi un point de référence.

Critères d’Inclusion et d’Exclusion

Les prompts peuvent être affinés par des critères d’inclusion ou d’exclusion. Par exemple, un critère d’inclusion pourrait être que “toute discussion sur les qualifications lors de l’embauche doit être considérée comme pertinente.” À l’inverse, un critère d’exclusion pourrait stipuler que “toute discussion sur l’embauche de personnes autres que les entraîneurs ou la direction doit être considérée comme non pertinente.”

Révisions IA et Sécurité

L’auteur aborde également la révision complète par IA, tout en proposant des options telles que la révision linéaire alimentée par IA et la révision hybride IA/CAL.

Concernant la confidentialité et la sécurité, il est souligné : “Si vous ne payez pas pour un produit, vous êtes le produit.” L’auteur propose des questions à poser au fournisseur d’IA pour assurer la sécurité.