Modération automatique : comment AI Dungeon creuse sa tombe

Le jeu de rôle qui vous fait dialoguer avec GPT-3 est en train de détruire sa réputation en luttant « trop fort » contre les pédophiles.

Boîte noire
5 min readJun 2, 2021

Des réseaux sociaux les mieux fréquentés aux forums les plus glauques, toutes les plateformes qui permettent à leurs utilisateurs de publier du contenu ont la même angoisse : comment garantir la liberté d’expression tout en protégeant au mieux nos intérêts ? Des messages haineux peuvent faire fuir les annonceurs ou vous valoir un deplatforming douloureux. D’un autre côté, des internautes qui se sentent censurés peuvent ruiner votre réputation en quelques heures.

À la lumière de cette dichotomie, le cas d’AI Dungeon semble particulièrement cruel : depuis quelques semaines, ce jeu de rôle qui utilise les modèles de langage GPT pour emmener les internautes dans des aventures textuelles uniques tente de lutter contre la pédopornographie à grands coups de modération automatique. Les conséquences de ce combat sont désastreuses pour tout le monde.

∎ Mars 2019. Nick Walton, un spécialiste des véhicules autonomes fraîchement introduit à Donjons & Dragons, bricole la première version d’AI Dungeon pendant un hackathon. Les capacités linguistiques du tout jeune GPT-2, un genre de « super-autocompléteur » développé par la société OpenAI, permettent au programme open-source de générer des aventures textuelles uniques en dialoguant avec les joueurs : vous décrivez les actions de votre personnage, AI Dungeon rebondit sur cet énoncé et ainsi de suite. Le premier « maître de donjon » artificiel vient de naître.

∎ Novembre 2019. Nick Walton et son nouveau studio de développement Latitude extraient AI Dungeon du cosmos open-source pour le transformer en service freemium. Les joueurs accourent et les reprises médiatiques se multiplient, dithyrambiques comme cet article selon lequel AI Dungeon prouve que le futur des jeux vidéo se trouve dans le machine learning. Une version smartphone gratuite sort dans la foulée. Sur Reddit, quelques internautes évoquent déjà le talent du jeu pour les histoires érotiques.

∎ Juillet 2020. Latitude dévoile Dragon, une nouvelle version payante de son jeu basée sur le tout nouveau GPT-3. Les 175 milliards de paramètres du descendant de GPT-2 consolident considérablement les capacités narratives du jeu : les aventures automatiques de Dragon sont plus cohérentes et crédibles que celles de la version gratuite d’AI Dungeon. De nombreux pornographes amateurs se cachent dans la playerbase toujours croissante. « Les gens peuvent faire ce qu’ils veulent, souffle Nick Walton pour un article paru dans Vice. Nous avons activé un filtre parental par défaut. Nous n’allons pas lutter contre ça. »

∎ Début avril 2021. Un bidouilleur amateur découvre que les serveurs du studio de développement ont été piratés et que toutes les aventures « privées » des joueurs ont été dérobées par les responsables de l’attaque. Selon les déclarations de ses représentants au magazine Wired, OpenAI découvre au même moment que ses modèles de langage permettent la rédaction de scénarios pédopornographiques dans AI Dungeon. Un « nouveau système de surveillance » aurait donné l’alerte. Latitude doit agir vite. « Les décisions de modération du contenu sont parfois difficiles, mais pas celle-ci, déclare Sam Altman, le patron d’OpenAI. Ce n’est pas le futur que quiconque souhaite pour l’intelligence artificielle. »

∎ Fin avril 2021. Dans un billet de blog, Latitude annonce avoir déployé un « système expérimental pour empêcher la génération de certains contenus à caractère sexuel qui contreviennent à nos conditions d’utilisation, spécifiquement les contenus qui peuvent impliquer des représentations ou des descriptions de mineurs (pour lesquelles nous appliquons une tolérance zéro) sur la plateforme AI Dungeon. » Le studio de développement précise que ce système expérimental détecte automatiquement le « contenu inapproprié » avant de le faire parvenir à des modérateurs humains « à des fins d’amélioration du modèle, d’application de nos règles et de respect de la loi. » La communauté du jeu entre en éruption.

∎ Début mai. Les fils de discussions et les salons dédiés à AI Dungeon sur Reddit, 4chan et Discord débordent de publications au mieux critiques, au pire insultantes. Sans doute menacé de rupture de son contrat d’utilisation des systèmes GPT par OpenAI, Latitude a manifestement opté pour un système de modération automatique excessivement rigoureux. Selon certains enquêteurs amateurs, ce système est un filtre conçu pour détecter « un terme qui évoque un enfant et un mot qui semble sexuel à moins de 400 caractères de distance ». Toute détection entraîne l’envoi d’un avertissement (« Ça a pris une tournure bizarre ») dans la fenêtre de jeu et la transmission du script incriminé aux employés de Latitude. Les termes concernés sont assez anodins pour que des expressions comme « Cockpit » ou « 4-year old computer » finissent signalées, ce qui complique nettement le gameplay.

En dépit de la tempête, Latitude garde le silence. Déjà échaudés par l’absence totale de communication du studio quant au piratage de ses serveurs, les habitués du subreddit /r/AIDungeon comptent les jours de silence avec des mèmes moqueurs. D’autres macros laissent entendre que les « gens normaux » et les « écrivains pornographiques » sont prêts à unir leurs forces malgrés leurs différences pour pourrir la vie des responsables d’AI Dungeon. Pendant ce temps, des internautes débrouillards développent et diffusent des « scripts anti-filtres » pour contrer le dispositif de modération automatique de Latitude. Assez vite, Latitude opte pour le bannissement massif des utilisateurs de ces scripts.

∎ 26 mai. Un long article publié sur la plateforme GitGud.io par un certain Aurora Purgatio soutient que les textes grâce auxquels Latitude a renforcé les modèles GPT pour mieux les former aux raffinements du jeu de rôle contiennent « des représentations d’agression sexuelle » et des passages « violents, offensants et discriminatoires ». Aurora Purgatio affirme que la présence de tels textes, nécessairement sélectionnés « à la main » par les développeurs d’AI Dungeon, prouve que Latitude soumet les joueurs à des règles qu’il ne suit pas lui-même. Il tonne : « Latitude a choisi d’accuser et punir ses clients en ignorant que son propre processus de fine-tuning de l’intelligence artificielle et la première source du contenu que Latitude a décidé de combattre. »

∎ 28 mai. Un internaute se présente comme un « modérateur d’AI Dungeon » dans une discussion dédiée au « storytelling dynamique par intelligence artificielle » sur 4chan. Assez rapidement, cet inconnu affirme, captures d’écran à l’appui, que Latitude confie l’analyse des scripts signalés par son système de modération automatique à une plateforme de crowdsourcing… Mais aussi que cette plateforme de crowdsourcing dévoile les informations personnelles des joueurs d’AI Dungeon aux modérateurs amateurs. Pour la première fois depuis un mois, Latitude sort de son silence pour affirmer clairement qu’il ne sous-traite pas la modération des textes signalés.

∎ Dans le futur. Les choses se présentent mal pour AI Dungeon. Les finances et la réputation de Latitude vont sans doute souffrir longtemps du scandale. Conformément aux poncifs des affaires de censure dans les profondeurs du réseau, des entrepreneurs ont lancé au moins deux concurrents, HoloAI et NovelAI, pour tenter de récupérer les anciens joueurs d’AI Dungeon en leur garantissant une liberté totale. En temps voulu, le parpaing de la réalité sera sans doute lourd sur la tartelette aux fraises de leurs illusions.

Boîte Noire est la newsletter hebdomadaire sur l’intelligence artificielle de Sébastien Wesolowski. Inscrivez-vous par ici : http://eepurl.com/hivYvT

--

--

Boîte noire

Boîte Noire est une newsletter hebdomadaire sur l’intelligence artificielle. Inscrivez-vous par ici : http://eepurl.com/hivYvT