Hors de l’ombre des bibliothèques : Utilisation équitable et données d’entraînement de l’IA
Depuis le lancement des premiers modèles de langage de grande taille (LLM), une vague de litiges en matière de droits d’auteur a été initiée par des auteurs, des musiciens et des organisations de presse alléguant que leurs œuvres avaient été mal appropriées pour construire les outils d’IA générative les plus puissants d’aujourd’hui. En réponse, les entreprises d’IA ont affirmé que de telles utilisations relèvent de l’utilisation équitable.
Ces poursuites ciblent un éventail d’allégations d’infraction au droit d’auteur. Certaines se concentrent uniquement sur l’utilisation non autorisée d’œuvres comme entrées d’entraînement, d’autres sur la capacité du modèle à générer des résultats supposément contrefaisants, et beaucoup fondent la responsabilité sur les deux comportements.
Récapitulatif de l’Utilisation Équitable
Pour prouver une infraction, un plaignant doit démontrer qu’un défendeur a utilisé une œuvre protégée en violation de l’un des droits exclusifs accordés au propriétaire du droit d’auteur. Cependant, toutes les utilisations non autorisées ne donnent pas lieu à une responsabilité. La protection des droits d’auteur intègre certaines limitations, y compris l’utilisation équitable, conçues pour équilibrer les incitations créatives avec l’intérêt public.
Historiquement, l’utilisation équitable a permis l’innovation technologique, comme les enregistreurs vidéo domestiques et les moteurs de recherche Internet. Les tribunaux analysent l’utilisation équitable en évaluant et en équilibrant quatre facteurs statutaires :
- le but et le caractère de l’utilisation,
- la nature de l’œuvre originale,
- la quantité et la substantialité de la partie utilisée,
- les effets sur le marché.
Bartz v. Anthropic
Dans l’affaire Bartz v. Anthropic, le tribunal a jugé que l’utilisation des œuvres protégées pour entraîner un modèle d’IA était une utilisation équitable, du moins lorsque les œuvres étaient légalement obtenues. Le tribunal a séparé son analyse d’utilisation équitable entre l’acte d’entraînement et la rétention des données par Anthropic.
Concernant la formation du modèle, le tribunal a trouvé que le premier et le quatrième facteurs favorisaient l’utilisation équitable, car la création du modèle était « quintessentiellement transformative » et ne produisait pas de substituts contrefaisants. Le troisième facteur favorisait également l’utilisation équitable, car la quantité copiée était « particulièrement raisonnable » pour l’objectif d’utiliser des écrits de haute qualité pour entraîner un LLM.
En revanche, pour l’acte de conserver des copies obtenues illégalement, le tribunal a trouvé que « chaque facteur pointait contre l’utilisation équitable ». Cela souligne que l’acquisition de matériaux utilisés pour faciliter l’entraînement de l’IA n’est pas protégée.
Kadrey v. Meta
Dans l’affaire Kadrey v. Meta, le tribunal a également trouvé que la reproduction non autorisée d’œuvres protégées pour entraîner un modèle d’IA constituait une utilisation équitable. Bien que Meta, comme Anthropic, ait téléchargé et reproduit des sources piratées, le tribunal a abouti à une conclusion différente quant à la pertinence de l’acquisition de données dans son analyse d’utilisation équitable.
Le tribunal a noté que bien que l’utilisation de données d’entraînement à partir de « bibliothèques d’ombre » (répertoires numériques d’œuvres protégées mises à disposition sans autorisation) était pertinente, cela ne suffisait pas à disqualifier l’utilisation équitable. Le tribunal a conclu que le téléchargement était une étape intégrale vers l’objectif transformateur ultime.
Conclusion
Ensemble, ces deux décisions suggèrent une tendance vers la reconnaissance de l’utilisation d’œuvres protégées comme entrées d’entraînement pour un modèle d’IA génératif comme une utilisation équitable. Cependant, ces décisions clarifient que cette protection n’est pas absolue. La responsabilité en matière de droits d’auteur subsiste pour l’acquisition des données utilisées pour entraîner l’IA.
Les décisions récentes en matière d’utilisation équitable et les allégations d’infraction fournissent des pistes importantes mais préliminaires sur la manière dont l’IA générative croise le droit d’auteur et le précédent judiciaire. Alors que cette technologie et le paysage légal continuent d’évoluer, de nombreuses avenues de responsabilité demeurent.
