Les chatbots IA ont besoin de plus de livres pour apprendre, et plusieurs bibliothèques américaines leur prêteront des livres.

Tout ce que nous avons entendu sur Internet n'était que le début d' une éducation à l'intelligence artificielle sur l'humanité. Aujourd'hui, les entreprises technologiques se tournent vers un réservoir de connaissances encore plus ancien : les étagères des bibliothèques .
Près d'un million de livres publiés depuis le XVe siècle , en 254 langues, font partie d'une collection de l'Université Harvard récemment partagée avec des chercheurs. Des trésors de vieux journaux et de documents gouvernementaux conservés par la Bibliothèque publique de Boston y seront bientôt intégrés.
L'ouverture des coffres-forts pour accéder à des tomes vieux de plusieurs siècles pourrait signifier une mine de données pour les entreprises technologiques confrontées à des poursuites judiciaires de la part de romanciers, d'artistes visuels et d'autres dont elles ont utilisé les œuvres créatives sans leur consentement pour former des chatbots IA.
« C’est une décision prudente de commencer avec des informations du domaine public , car elles sont moins controversées à ce stade que le contenu qui est toujours protégé par le droit d’auteur », a déclaré Burton Davis, conseiller juridique adjoint de Microsoft.
Davis a souligné que les bibliothèques détiennent également « d'importantes quantités de données culturelles, historiques et linguistiques intéressantes », absentes ces dernières décennies des commentaires en ligne dont les chatbots IA se sont largement inspirés. La crainte de manquer d'informations a également conduit les développeurs d'IA à se tourner vers des données « synthétiques », créées par les chatbots eux-mêmes et de moindre qualité.
Avec le soutien de dons sans restriction de Microsoft et d'OpenAI, le créateur de ChatGPT, l'Initiative de données institutionnelles basée à Harvard travaille avec des bibliothèques et des musées du monde entier sur la manière de rendre leurs collections historiques compatibles avec l'IA d'une manière qui profite également aux communautés qu'elles servent.
« Nous essayons de redonner une partie du pouvoir actuellement détenu par l'IA à ces institutions », a déclaré Aristana Scourtas, directrice de recherche au Laboratoire d'innovation des bibliothèques de la faculté de droit de Harvard . « Les bibliothécaires ont toujours été les gardiens des données et de l'information. »
Chatbots. Archives Clarín.
L'ensemble de données récemment publié par Harvard, Institutional Books 1.0, contient plus de 394 millions de pages papier numérisées . L'une des plus anciennes œuvres remonte au XVe siècle : les réflexions manuscrites d'un peintre coréen sur la culture des fleurs et des arbres. La plus grande concentration d'œuvres date du XIXe siècle et aborde des sujets tels que la littérature, la philosophie, le droit et l'agriculture, le tout méticuleusement conservé et organisé par des générations de bibliothécaires.
Cela promet d’être très bénéfique pour les développeurs d’IA qui tentent d’améliorer la précision et la fiabilité de leurs systèmes.
« Une grande partie des données utilisées pour la formation en IA ne proviennent pas de sources originales », a souligné Greg Leppert, directeur exécutif de l'initiative sur les données et directeur technique du Berkman Klein Center for Internet & Society de Harvard, une organisation spécialisée dans l'étude du cyberespace. Cette collection d'ouvrages couvre « jusqu'à la copie physique numérisée par les institutions qui ont collecté ces documents », a-t-il ajouté.
Avant que ChatGPT ne suscite un engouement commercial dans le domaine de l'intelligence artificielle, la plupart des chercheurs en IA ne s'intéressaient pas particulièrement à la provenance des passages de texte qu'ils récupéraient sur Wikipédia, les forums de médias sociaux comme Reddit et, parfois, de vastes dépôts de livres piratés . Ils avaient simplement besoin de ce que les informaticiens appellent des jetons : des unités de données, chacune pouvant représenter un fragment de mot.
Chatbots.REUTERS/Dado Ruvic/Illustration
La nouvelle collection d'entraînement d'IA de Harvard compte environ 242 milliards de jetons, un volume difficile à appréhender pour les humains , mais qui ne représente qu'une goutte d'eau dans l'océan de ce qui alimente les systèmes d'IA les plus avancés. Par exemple, Meta, la maison mère de Facebook, a déclaré que la dernière version de son modèle linguistique d'IA complet a été entraînée sur plus de 30 000 milliards de jetons extraits de textes, d'images et de vidéos.
Meta fait également face à un procès intenté par la comédienne Sarah Silverman et d'autres auteurs publiés qui accusent l'entreprise d'avoir volé leurs livres dans des « bibliothèques fantômes » d'œuvres piratées.
Désormais, avec quelques réserves, les bibliothèques royales imposent leurs conditions.
OpenAI, qui fait également face à une série de poursuites pour violation du droit d'auteur, a fait don de 50 millions de dollars cette année à un groupe d'institutions de recherche, dont la bibliothèque Bodleian de l'Université d'Oxford, vieille de 400 ans, qui numérise des livres rares et utilise l'IA pour les transcrire.
Lorsque l'entreprise a contacté pour la première fois la bibliothèque publique de Boston, l'une des plus grandes des États-Unis, la bibliothèque a clairement indiqué que toutes les informations qu'elle numérisait seraient accessibles à tous , a déclaré Jessica Chapel, sa directrice des services numériques et en ligne.
« OpenAI s'intéressait aux volumes massifs de données d'entraînement. Nous nous intéressons également aux volumes massifs d'objets numériques. Il semble donc que nos intérêts convergent », a déclaré Chapel.
La numérisation coûte cher. Par exemple, la bibliothèque de Boston a consacré un travail minutieux à la numérisation et à l'organisation de dizaines de journaux francophones de la Nouvelle-Angleterre, largement diffusés à la fin du XIXe et au début du XXe siècle auprès des communautés d'immigrants canadiens au Québec. Maintenant que ce texte est utilisé pour entraîner l'IA, il contribue à financer des projets que les bibliothécaires souhaitent de toute façon poursuivre.
Chatbots.REUTERS/Dado Ruvic/Illustration
La collection de Harvard avait déjà commencé à être numérisée en 2006 pour un autre géant de la technologie, Google, dans le cadre de son projet controversé de création d'une bibliothèque en ligne consultable de plus de 20 millions de livres.
Google a passé des années à repousser les poursuites judiciaires des auteurs concernant sa bibliothèque en ligne , qui comprenait de nombreuses œuvres récentes protégées par le droit d'auteur. La société a finalement trouvé une solution en 2016, lorsque la Cour suprême des États-Unis a confirmé les décisions des tribunaux inférieurs qui avaient rejeté les plaintes pour violation du droit d'auteur.
Pour la première fois, Google a collaboré avec Harvard pour extraire les volumes de Google Books du domaine public et ouvrir la voie à leur partage avec les développeurs d'IA. Aux États-Unis, la protection du droit d'auteur dure généralement 95 ans, et plus longtemps pour les enregistrements sonores.
La nouvelle initiative a été saluée par le même groupe d’auteurs qui ont poursuivi Google au sujet de son projet de livre et qui, plus récemment, ont poursuivi les entreprises d’IA en justice.
« Beaucoup de ces titres n'existent que dans les rayons des grandes bibliothèques, et la création et l'utilisation de cet ensemble de données élargiront l'accès à ces ouvrages et aux connaissances qu'ils contiennent », a déclaré Mary Rasenberger, directrice exécutive de la Writers Guild, dans un communiqué. « Par-dessus tout, la création d'un ensemble complet de données juridiques destinées à la formation démocratisera la création de nouveaux modèles d'IA. »
Photographie fournie par Google montrant les deux pages de publications de Gemini, le chatbot d'intelligence artificielle (IA) de Google. EFE/Google
Il reste à voir dans quelle mesure tout cela sera utile pour la prochaine génération d’outils d’IA , car les données sont partagées sur la plateforme Hugging Face, qui héberge des ensembles de données et des modèles d’IA open source que tout le monde peut télécharger.
La collection de livres est plus diversifiée sur le plan linguistique que les sources de données habituelles d'IA. Moins de la moitié des volumes sont en anglais, bien que les langues européennes restent prédominantes, notamment l'allemand, le français, l'italien, l'espagnol et le latin.
Une collection de livres imprégnés de la pensée du XIXe siècle pourrait également être « extrêmement cruciale » pour les tentatives de l’industrie technologique de créer des agents d’IA capables de planifier et de raisonner aussi bien que les humains, a noté Leppert.
« À l'université, on dispose de nombreux supports pédagogiques sur le raisonnement », a-t-il observé. « On dispose de nombreuses informations scientifiques sur la manière d'exécuter des processus et de réaliser des analyses. »
Parallèlement, il existe également de nombreuses données obsolètes , allant de théories scientifiques et médicales discréditées à des récits racistes et coloniaux.
« Lorsqu'on traite un ensemble de données aussi volumineux, il y a des problèmes délicats autour du contenu et du langage préjudiciables », a déclaré Kristi Mukk, coordinatrice du Harvard Library Innovation Lab, qui a déclaré que l'initiative cherche à fournir des conseils pour atténuer les risques liés à l'utilisation des données, « aidant ainsi les utilisateurs à prendre leurs propres décisions éclairées et à utiliser l'IA de manière responsable ».
Avec des informations de l'Associated Press.
Clarin