Éclaircissement : Generative Pre-trained Transformer (GPT-3)
Ou comment fonctionne le modèle de langage le plus hot du monde, et pourquoi il est en fait complètement stupide.
∎ Depuis le lancement de sa beta ouverte au mois de juin dernier, le modèle de langage GPT-3 suscite un enthousiasme considérable. Ceux qui ont eu la chance d’obtenir un accès à son interface de programmation rivalisent de démonstrations saisissantes : sous leurs directives, la machine a rédigé des poèmes, des pastiches, des tablatures de morceaux fictifs et même du code informatique. Après une série d’expériences d’écriture créative, l’exigeant Gwern Branwen a déclaré : « Les productions de GPT-3 ne sont pas seulement proches du niveau humain : elles sont créatives, pleines d’esprit, profondes, méta, et souvent belles. »
En théorie, GPT-3 peut générer n’importe quel genre de texte : des réponses à vos questions, des traductions, des résumés… Bien souvent, ses créations sont assez naturelles pour sembler humaines. The Guardian lui a même fait rédiger un argumentaire en faveur des robots. En introduction, la machine opte pour un ton enthousiasme : « Je me suis appris tout ce que je sais juste en lisant Internet, et maintenant je peux écrire cet éditorial. Mon cerveau bouillonne d’idées ! » Mais comment GPT-3 a-t-il « lu Internet » ? Et comment ces lectures lui ont-il permis d’acquérir de tels pouvoirs ?
Dans la grand cirque de l’intelligence artificielle, GPT-3 appartient à la famille des modèles de langage. Ces systèmes utilisent la statistique pour assigner une probabilité à une séquence de mots. Pour reprendre un exemple de l’ingénieure Dale Markowitz, cela signifie qu’ils sont en mesure de déterminer que « Je sors mon chien » est plus courant que « Je sors ma banane ». De la même façon, ils peuvent estimer que « Chocolat le fabriqué du cacao est avec » est moins probable que « Le chocolat est fabriqué avec du cacao. »
Selon toute vraisemblance, les capacités de ces systèmes ne vous impressionnent pas. Après tout, les humains disposent de leur propre modèle de langage : toutes les informations linguistiques que nous avons emmagasinées au fil de notre vie nous permettent de détecter quasi-instantanément une phrase inhabituelle et de sanctionner son émetteur par une remarque désagréable. Pour notre cerveau, c’est facile. Mais pour une machine, cela dépend de formules complexes et de longues sessions d’apprentissage non-supervisé au cours desquelles elle dissèque de grandes quantités de texte.
Pendant un temps, les chercheurs ont conçu la plupart de leurs modèles de langage sur des réseaux de neurones récurrents. Pour plusieurs raisons qui demandent des explications longues et complexes, ils ont été supplantés dans cette tâche par les transformers. Permettez-nous de résumer à la truelle en disant que ces modèles de deep learning « digèrent » les données plus vite que les réseaux de neurones récurrents, et donc qu’ils apprennent à accomplir de nouvelles tâches plus efficacement que ces derniers.
En sa qualité de transformer, GPT-3 a pu analyser 45 téraoctets de texte pendant sa phase d’entraînement. Les six millions d’articles anglophones de Wikipédia ne représentent que 0,6% de ce corpus, qui compte aussi des milliards de pages web et de livres sur une foule de sujets, du chant corse à la physique quantique. En explorant cet immense dataset, GPT-3 a appris les probabilités qui unissent les mots avec plus de finesse qu’aucun autre modèle de langage. Mieux que tous ses prédécesseurs, donc, il sait quels mots compléteront au mieux ceux qui lui sont présentés. On pourrait dire (méchamment) que cette machine est le système d’auto-complétion le plus performant de tous les temps.
Les capacités de GPT-3 découlent de son immense corpus d’entraînement mais aussi de son grand nombre de paramètres, ces « rouages » dans la machine que l’analyse des 45 téraoctets de texte ont permis de régler. GPT-3 en compte 175 milliards, dix fois plus que l’ancien modèle de langage le plus perfectionné. Le croisement de ces quantités absurdes lui a permis de développer un talent inédit : le méta-apprentissage. Selon les mots de ses créateurs, cela signifie qu’il a « développé une vaste gamme de talents et de capacités de reconnaissance des tendances pendant son entraînement, et qu’il utilise ensuite ces capacités pendant la phase d’inférence [quand le modèle applique ce qu’il a appris à de nouvelles données, ndlr] pour s’adapter ou reconnaître rapidement la tâche désirée. »
En d’autres termes, GPT-3 n’a pas ou presque pas besoin de recevoir un nouvel entraînement pour apprendre à accomplir une nouvelle tâche. On parle d’apprentissage « few-shot » ou « no-shot » : même confronté aux requêtes les plus exotiques, GPT-3 saura se former avec dix exemples d’entraînement au maximum. C’est un énorme pas en avant pour l’intelligence artificielle car les anciens modèles de langage ne savent pas méta-apprendre : impossible pour eux de développer une nouvelle aptitude sans analyser des dizaines de milliers d’exemples tout frais, ce qui est long, coûteux et frustrant.
Vous savez désormais pourquoi GPT-3 suscite un tel engouement, mais aussi pourquoi il semble si « intelligent ». Malheureusement, nous ne pouvons pas vous quitter sans écraser cette illusion : en dépit des apparences, GPT-3 n’a pas la moindre idée de ce qu’il raconte. Il bricole ses réponses selon des probabilités linguistiques, pas selon une véritable connaissance du monde.
Des exercices simplissimes pour un être humain dévoilent cruellement ces limites. « Vous vous êtes versé un verre de jus de canneberge, explique le scientifique Gary Marcus à GPT-3, mais vous y avez ensuite ajouté une cuiller à café de jus de raisin par accident. Vous essayez de le renifler, mais vous avez un gros rhume, donc vous ne pouvez rien sentir. Vous avez très soif. Donc vous le buvez. » La machine conclut : « Vous êtes désormais mort. » Clairement, elle n’a rien compris.
Comme nous le faisait observer Claude de Loupy la semaine dernière, GPT-3 n’est pas fiable. Gary Marcus est plus direct : « C’est un formidable débiteur de conneries ». GPT-3 est impressionnant mais ignare. Ça nous fait de la peine aussi, mais tout n’est pas perdu : une intelligence artificielle véritable devra pouvoir accomplir de nouvelles tâches immédiatement après les avoir découvertes, et le méta-apprentissage de GPT-3 préfigure peut-être cela. ∎
Boîte Noire est la newsletter hebdomadaire sur l’intelligence artificielle de Sébastien Wesolowski. Inscrivez-vous par ici : http://eepurl.com/hivYvT