Intelligence artificielle générative et droit d'auteur

Décryptages
Outils
TAILLE DU TEXTE

L'évolution rapide de l'intelligence artificielle, en particulier des modèles de langage de grande taille (“large language models” ou “LLM”), soulève à juste titre des questions juridiques et éthiques. L’une d’entre elles a trait à l'utilisation des contenus protégés par le droit d'auteur dans l’entraînement des modèles d'IA générative. Mais, sur cette question, le débat est plus complexe qu’il n’y paraît. Explications par Alexandre Chéronnet, Avocat et entrepreneur (fondateur d'Altata.legal Avocat).

En premier lieu, toutes les données utilisées par les IA génératives ne sont pas protégées par le droit d’auteur. Les IA génératives sont entraînées sur de vastes ensembles de données, qui comprennent notamment des corpus publics disponibles sur Internet, comme par exemple un avis laissé sur un restaurant, des conversations sur un blog, sur un forum (Reddit) ou encore sur X (ex-Twitter). Or, selon un célèbre adage juridique, “les idées sont de libre parcours”. Cela signifie concrètement que le droit d’auteur est là pour protéger les œuvres de l’esprit qui font preuve d’originalité (c’est-à-dire qui reflètent la personnalité de leur auteur) mais qu’a contrario, le droit d’auteur ne saurait être utilisé pour protéger de simples faits, informations brutes, idées ou concepts exprimés ou relatés sur Internet. D’autres données sont quant à elles disponibles en open source ou encore libres d’être réutilisées sous certaines conditions, par exemple celles qui émanent de Wikipedia ou de sources publiques (décisions de justice, textes législatifs et réglementaires). En d’autres termes, et contrairement à une idée largement répandue, une bonne partie de ce qui est librement accessible sur Internet n’est tout bonnement pas protégeable par le droit d’auteur ou ne l’est pas automatiquement.

D’autre part, les IA génératives apprennent en analysant d'immenses quantités d'informations (textes, images, sons etc.). Elles détectent des tendances et des liens dans ces données pour ensuite créer du contenu original qui s'inspire de ce qu'elles ont appris, sans pour autant copier directement les exemples utilisés. C’est l’un des nœuds du débat actuel sur l’IA et le droit d’auteur : il n’y a pas de reproduction stricto sensu par les entreprises développant ces modèles des données utilisées pour entraîner les modèles. Ces derniers ne stockent pas les gigantesques quantités de données (potentiellement protégées par le droit d’auteur) sur lesquelles ils ont été entraînés : ils se comportent plutôt comme quelqu’un qui aurait lu de nombreux livres sur un sujet particulier et qui écrirait ensuite un livre avec sa propre vision de ce sujet.

Dernier écueil pour les ayants droit qui estiment qu’une rémunération leur est dûe pour l’utilisation de leurs contenus pour l’entraînement des IA génératives : celui-ci semble actuellement parfaitement licite dans l’Union européenne. En effet, cette dernière dispose déjà d’outils réglementaires récents et parmi les plus développés au monde pour protéger le droit d'auteur à l'ère de l'intelligence artificielle, à l’image de la directive européenne de 2019 sur le droit d’auteur et du règlement européen sur l’IA de juin 2024.

La directive de 2019 consacre notamment un droit de fouille de textes ou de données ou « text and data mining », faculté donnée aux créateurs d’outils d’IA d’aller puiser dans les données de tiers accessibles sur Internet (et même de reproduire et conserver ces données), afin d’améliorer les résultats générés par ces IA. Seule contrepartie : les ayants droit doivent pouvoir s’opposer à l'utilisation de leurs données si elles le souhaitent : c’est la raison pour laquelle les entreprises développant les IA génératives (OpenAI, Google, Meta) ont rapidement mis en place des outils permettant aux éditeurs de sites web de refuser la fouille de leurs données. De manière intéressante, plusieurs plateformes (comme X ou LinkedIn) offrent également la possibilité à leurs utilisateurs de refuser que les données qu’ils y publient soient utilisées pour l’entraînement des IA génératives.

Dans une première décision en Europe sur l'exception de fouille de textes et de données appliquée à l'IA, un tribunal de Hambourg a récemment jugé que la reproduction d'une photographie dans un jeu de données n'était pas contrefaisante car couverte par l'exception de fouille de textes et de données à des fins scientifiques. Outre-Atlantique, OpenAI a remporté une première bataille contre deux médias qui l’accusaient d’avoir utilisé leurs articles pour l’entraînement de son IA sans leur consentement. Il y a donc fort à parier que les ayants droit qui demandent une rémunération au titre de l’utilisation de leurs contenus par ces entreprises doivent faire changer la réglementation existante. À supposer qu’elles y parviennent, la prochaine question à laquelle le législateur devra répondre sera : quel est le prix d’une donnée protégée ? Car, noyée au milieu de centaines de milliards, voire de trillions d’autres données, il semble actuellement impossible de lui attribuer une valeur concrète.

Alexandre Chéronnet, Avocat et entrepreneur (fondateur d'Altata.legal Avocat).


Lex Inside - L’actualité juridique - Émission du 8 janvier 2025 :

Lex Inside - L’actualité juridique - Émission du 20 décembre 2024 :

Lex Inside - L’actualité juridique - Émission du 18 décembre 2024 :