Ce modèle défie l’argument central des géants de l’IA

Image d'illustration. IAADN
Un collectif international de chercheurs prouve qu’il est possible de créer une IA performante sans enfreindre le droit d’auteur.
Tl;dr
- Des chercheurs de 14 institutions ont créé un modèle d’IA basé uniquement sur des contenus libres ou du domaine public, pour démontrer qu’une alternative éthique aux pratiques actuelles est possible.
- Le projet, reposant sur 8 To de données soigneusement vérifiées, montre des performances modestes mais comparables à celles de modèles commerciaux récents.
- Cette initiative remet en cause l’argument selon lequel les LLMs ont nécessairement besoin de contenus protégés, relançant les débats juridiques sur le respect du droit d’auteur dans l’IA.
Un défi pour l’industrie : un modèle d’IA sans contenus protégés
L’idée selon laquelle il serait impossible de concevoir une intelligence artificielle performante sans recourir à des contenus soumis au droit d’auteur est fréquemment avancée par les géants du secteur. Pourtant, des chercheurs issus de quatorze institutions internationales, parmi lesquelles figurent le MIT, Carnegie Mellon, ou encore le Vector Institute, ont voulu mettre cette affirmation à l’épreuve. Leur démarche a abouti à la création d’un nouveau modèle linguistique – certes moins puissant que les ténors du marché, mais nettement plus respectueux de l’éthique.
Un travail titanesque sur les données ouvertes
La base du projet ? Un ensemble colossal de données, exclusivement issues du domaine public ou sous licence ouverte. Au total, les scientifiques ont réuni pas moins de 8 To de documents, dont une collection remarquable de 130 000 livres provenant de la Library of Congress. Pour alimenter leur modèle composé de sept milliards de paramètres – chiffre équivalent au Llama 2-7B lancé en 2023 par Meta –, il a fallu bien plus qu’une simple collecte automatisée. Une large part des documents n’étant pas directement exploitables par les machines, une annotation manuelle s’est avérée indispensable. Selon la chercheuse Stella Biderman, ce « travail reste incroyablement fastidieux », exigeant vérifications et clarifications juridiques sur chaque licence associée aux sites web utilisés.
Loin des records, mais un message fort envoyé aux géants
Même si ce LLM éthique n’égale pas les performances des meilleurs modèles contemporains, ses résultats sont comparables à ceux d’un grand modèle commercial d’il y a deux ans. Toutefois, l’équipe n’a pas publié de benchmarks détaillés face aux IA actuelles, se concentrant sur la démonstration du concept plutôt que sur la compétition pure.
Au-delà des aspects techniques, le projet bouscule frontalement certaines idées reçues au sein du secteur. Il remet en cause des déclarations récentes émanant notamment d’OpenAI, qui assurait devant un comité parlementaire britannique qu’un tel développement serait « impossible sans contenus protégés ». Un témoin expert d’Anthropic abondait dans le même sens en affirmant que « les LLMs n’existeraient probablement pas si chaque œuvre devait être licenciée ».
Pistes pour l’avenir et débats juridiques relancés
Certes, le processus s’est révélé ardu : plus long, moins performant – pour l’instant – et difficilement compatible avec les logiques industrielles dominantes. Mais cette expérience vient fissurer un argument central régulièrement brandi lors des débats réglementaires. À court terme, rien n’indique que cela influencera le modèle économique actuel ; pourtant, il ne serait guère étonnant de voir cette étude citée lors des prochains grands procès liés à l’<strong’intelligence artificielle.