GPT-3 en open-source : est-ce bien raisonnable ?
Un groupe amateur diffuse librement un modèle de langage aussi performant que GPT-3. Ses membres assurent que ce n’est pas dangereux.
∎ Mettre la main sur GPT-3 est ardu. Il faut inscrire son nom et ses intentions sur une liste d’attente vraisemblablement interminable. Si vous êtes sélectionné pour profiter du fameux modèle de langage, vous allez vite devoir payer : quelques dizaines de dollars pour un particulier curieux et peu sollicitant, plusieurs milliers pour une entreprise raisonnablement populaire. (AI Dungeon coûtait 10 000 dollars par jour en décembre 2019.) Malheureusement, ces sommes vous donnent tout juste le droit d’utiliser GPT-3. Son créateur OpenAI est libre de vous excommunier quand bon lui semble. (AI Dungeon a dû implémenter un système de censure rigoureux pour ne pas perdre sa licence.)
Certes, les capacités de GPT-3 sont fascinantes. Cependant, elles sont globalement les mêmes pour tous, car OpenAI se garde bien de dévoiler les rouages de sa créature et que toute tentative de « fine-tuning » demande des ressources informatiques considérables. Microsoft dispose de telles ressources : l’entreprise vient de lancer son premier produit à base de GPT-3, presque un an après s’être offert une « licence exclusive » pour le modèle de langage. Cette « loi des ayants » signifie aussi que les réparations et améliorations potentielles de GPT-3 dépendent uniquement de son créateur. Dans un tel contexte, les utilisateurs sont avant tout des clients.
Tous ces soucis sont caractéristiques des services privés ou « propriétaires ». En dépit de son côté futuriste-machine-learning-miraculeux, GPT-3 est comme Photoshop ou MacOS : hormis payer pour utiliser ses services, vous ne pouvez pas faire grand-chose avec lui. La communauté open-source lutte depuis des décennies contre cette tendance en proposant des logiciels « libres et ouverts » dans leur utilisation comme leur modification. La semaine dernière, après de longs mois de travail, quelques-uns de ces activistes réputés pour leur sens artistique limité ont dévoilé une version open-source de GPT-3 baptisée GPT-J-6B.
Les créateurs de GPT-J se font appeler EleutherAI. Ce groupe a fait parler de lui au début de cette année en dévoilant The Pile, une base de données textuelles de 835 gigaoctets dans laquelle se croisent les archives de PubMed et la totalité de Wikipédia. GPT-J a développé ses six milliards de paramètres au fil de cinq semaines d’entraînement sur The Pile. Selon ses créateurs, ses performances atteignent presque celles de GPT-3 Curie, un modèle équivalent en taille mais développé en privé par OpenAI. On est encore loin des 175 milliards de paramètres de GPT-3 Davinci, mais on progresse. (Il existe quatre versions plus ou moins imposantes et coûteuses de GPT-3.)
Vous pouvez essayer GPT-J sur le site officiel de ses créateurs ou le télécharger sur GitHub. C’est évidemment gratuit. Interrogé par VentureBeat, Connor Leahy, un membre fondateur d’EleutherAI, a déclaré : « Nous pensons pouvoir dire que ce modèle de langage autorégressif open-source est de loin le meilleur de sa catégorie. » GPT-J est capable de prouver des théorèmes mathématiques, de réaliser des calculs, de produire du code informatique prêt à l’emploi… Et, bien sûr, de répondre à vos questions ou de compléter le texte que vous lui fournissez. Cependant, quelques observateurs demandent : diffuser aussi largement un outil aussi puissant est-il bien raisonnable ?
Dans Why Release a Large Language Model?, un article publié sur son blog officiel une semaine avant le lancement de GPT-J, Connor Leahy et ses collègues donnent trois arguments pour motiver la diffusion de leur modèle. Fait intéressant, chacun de ces arguments fait écho aux préoccupations de la communauté open-source.
∎ Premier point : « Des recherches importantes et significatives sur la sécurité peuvent être réalisées avec un accès à des modèles imposants et pré-entraînés. Nous aimerions rendre de telles recherches possibles et faciles pour des chercheurs dotés de faibles ressources (et participer nous-mêmes à ces recherches). » Pour EleutherAI, les modèles de langages de grande taille ne sont pas « dangereux au point de causer la fin du monde »… Pour le moment. Afin de découvrir les failles et les dangers potentiels de tels modèles avant qu’ils ne se manifestent, tous les chercheurs doivent être libres de plonger les mains dans le cambouis. Telle est la première mission (somme toute altruiste) de GPT-J.
∎ Deuxième point : « La majeure partie (>99%) des dégâts entraînés par GPT-3 sont survenus au moment de la publication du papier scientifique. » Techniquement, GPT-3 est simple. Créer un modèle de langage extrêmement lourd et performant est avant tout une histoire de moyens. « Si quelques volontaires qui travaillent sur leur temps libre avec de la puissance de calcul empruntée peuvent assembler un modèle de ce genre, affirme EleutherAI, tout le monde peut. » Autrement dit : le potentiel de nuisance des modèles de langage géants est déjà tout prêt à fleurir sous l’impulsion d’acteurs riches et puissants. Selon Connor Leahy et ses collègues, le top 1% des acteurs dangereux sera sans doute responsable de plus de 99% des dégâts. Ils concluent : « Essayer de tenir cette technologie hors des mains des acteurs malveillants est futile, et ce que nous pouvons faire de mieux est de permettre à la société toute entière de l’étudier et l’utiliser pour de bonnes causes. »
∎ Dernier point : « Retarder le lancement des modèles de langages ne permettra pas de déjouer les attaques sur nos ressources épistémiques. » Plus clairement : les assauts incessants sur les connaissances de nos sociétés dans notre époque ne doivent pas transformer les modèles de langages en boucs-émissaires. Ces derniers temps, de nombreux observateurs (notamment le Center for Security and Emerging Technology de l’université de Georgetown) redoutent de voir GPT-3 et ses descendants alimenter des campagnes de désinformation de grande ampleur. Et EleutherAI de pointer du doigt « les fermes de trolls » et « les algorithmes des plateformes sociales qui super-chargent la désinformation ». Ce n’est pas moi, ce sont les autres.
Boîte Noire est la newsletter hebdomadaire sur l’intelligence artificielle de Sébastien Wesolowski. Inscrivez-vous par ici : http://eepurl.com/hivYvT