Claude de Loupy : « On ne peut pas faire confiance à la machine »

Les machines ont montré maintes fois qu’elles pouvaient produire du texte intelligible, voire intéressant. Cela ne signifie pas qu’elles vont voler le travail des journalistes pour autant.

Boîte noire
8 min readDec 20, 2020
Claude de Loupy, co-fondateur et CEO de Syllabs.

∎ Bonjour Claude de Loupy. Qui êtes-vous ?

Claude de Loupy : Je suis cofondateur de Syllabs. J’ai un passé d’informaticien, avec un diplôme d’ingénieur, et un doctorat spécialisé dans l’intelligence artificielle appliquée aux langues. J’ai passé deux ans au CNRS puis j’ai travaillé pour un moteur de recherche en tant que directeur du laboratoire interne et de l’équipe linguistique. En 2005, j’ai tout plaqué et je suis parti en Égypte. Je suis resté six mois en me demandant ce que je pouvais faire, et j’ai découvert que je voulais faire plein de choses. Malheureusement, les gens avec lesquels je discutais ne voulaient pas faire ces choses-là. Alors, avec cette prétention typique des entrepreneurs, je me suis dit : « Je vais le faire. » C’est comme ça que nous avons créé Syllabs, mon associée Helena Blancafort et moi.

∎ Qu’est-ce que Syllabs ?

Notre activité principale, c’est la rédaction automatique. Nous avons plusieurs dizaines de moteurs qui nous permettent de produire des textes de description pour des produits : des appareils photo, des voitures, des lunettes… Mais aussi des lieux. Nous avons produit des descriptifs pour des hébergements en plusieurs langues pour le site touristique de l’Alsace. Nous décrivons aussi des commerces ou des agences et des biens pour divers groupements immobiliers. Nous pouvons aussi produire des textes d’actualité : de la météo, de la bourse, des informations pratiques locales… Une quinzaine de médias ont également fait appel à nous pour mettre en forme des résultats d’élection.

∎ Syllabs est né en 2006. Ça fait tôt pour une entreprise de linguistique informatique, non ?

Pas vraiment ! Beaucoup d’entreprises faisaient déjà ça. J’ai travaillé dans ce milieu dès la fin des années 90, pendant mes études. Mais c’était un domaine précurseur, avec beaucoup de petites boîtes qui peinaient sur un marché extrêmement étroit. Nous avons eu quelques difficultés en 2006, évidemment. Mais nous avons maintenant quatorze ans d’expérience, de connaissance du terrain, de recherche et développement…

∎ Ces difficultés étaient-elles liées au marché ? Ou à la technologie ?

La technologie jouait aussi. Quand Syllabs est né, il existait une opposition entre méthodes d’apprentissage par machine learning, sans supervision, et méthodes à base de règles, dans lesquelles la machine reçoit des directives. Cette opposition existe toujours, d’ailleurs. Le marketing de certaines boîtes entretient un certain mépris pour tout ce qui repose sur des règles au profit de l’apprentissage. Comme je viens du machine learning et que mon associée est plutôt rule-based, nous avons mélangé les deux pendant le développement de notre solution de rédaction automatique. J’aurais adoré faire ça en machine learning pur, mais nous n’aurions pu travailler pour aucun de nos clients car aucun d’entre eux ne disposait de corpus suffisant pour entraîner la machine.

∎ Ah, le fameux problème des données d’entraînement. C’est une question de quantité, de qualité…?

Les deux ! Quand ils se sont lancés un an avant Syllabs, les ténors américains du secteur comme Automated Insights ou Narrative Science sont partis directement sur le machine learning. Ils ont obtenu d’excellents résultats sur le baseball, le football et le basket parce qu’ils disposaient de décennies de textes et de données. Mais dès qu’ils ont voulu aller sur de la vente au secteur privé, ils ont développé un système à base de règles. D’ailleurs, la vitesse de traitement des données était également un problème. Certains de nos concurrents avaient besoin d’une heure pour analyser cinq mégaoctets de texte pur…

∎ Que peuvent produire vos moteurs, précisément ? Juste un texte, ou plus ?

Prenons la météo, que nous vendons à plusieurs médias : on produit un titre, un chapô, le corps du texte et des tags. Pour l’immobilier, on génère une annonce pour un site web, avec un descriptif du bien qui dépend des informations que nous allons chercher auprès des logiciels en utilisation dans les agences. En se basant sur nos propres données, nous pouvons aussi ajouter des éléments sur le quartier du bien. Enfin, nous pouvons aussi produire en un clic des annonces adaptées à la presse, aux portails et aux vitrines.

∎ Vous travaillez aussi avec des rédactions. Comment faites-vous pour conserver leur ton, leur ligne éditoriale ?

Quand nous travaillons avec des médias, nous échangeons avec eux pour que nos textes respectent leur ligne éditoriale. Exemple anecdotique mais éclairant : Le Monde parle d’abstention, Le Parisien parle de participation, et l’Express ne parle d’abstention que quand elle dépasse les 30%. C’est pareil pour plein d’autres choses, et ce sont ces petites règles qui font que nous pouvons rester fidèles à une ligne éditoriale. Autre exemple. Nous avons travaillé avec une start-up qui voulait envoyer des mails qui donnent envie de bouger à ses utilisateurs. En récupérant l’âge de ces personnes, nous avons pu adapter le ton : plus courtois pour les plus vieux, plus dynamique pour les plus jeunes.

∎ Tout ceci doit demander un travail énorme en amont…

Oui, absolument ! Nous avons un gros travail de paramétrage, justement parce que nous ne disposons pas de corpus d’apprentissage. On imagine parfois qu’il suffit de cliquer sur un bouton pour que la machine apprenne et recrache tout ce dont on a besoin. Ce serait simple mais ça enlèverait beaucoup de boulot, ce qui ne me semble pas si bien. Vous avez peut-être entendu parler de GPT-3. Du point de vue de la recherche, c’est super, mais les textes produits ne sont pas fiables. On ne peut pas faire confiance à la machine. Et comme nous garantissons une qualité parfaite, tout ce qui est paramétrage et moteur de rédaction chez Syllabs est validé par des humains.

∎ Quels avantages apporte Syllabs ?

D’abord, on apporte de la qualité, ce qui est bon pour l’image. Quand vous recherchez un bien immobilier et que les annonces sont pleines de fautes, vous grincez des dents. On promet aussi l’unicité des textes, ce qui permet d’améliorer le positionnement dans les moteurs de recherche. Nos articles d’information hyperlocale ont permis à 300 agences immobilières d’augmenter le nombre de visites en moyenne de 200% en un an. On a un gros impact sur ça.

On apporte également un avantage sur le temps et l’exhaustivité. Pour les dernières élections municipales, nous avons produit 35 000 articles qui donnent les résultats de chaque commune en une soirée. Des humains pourraient le faire en passant un an dessus, mais ce ne serait absolument pas rentable. Et avant que nous ne produisions de la météo pour Nice Matin, un journaliste passait 45 minutes à écrire trois ou quatre bulletins tous les jours. On libère du temps sur des tâches qui sont, ma foi, peu intéressantes… Et ne demandent pas forcément des gens aussi qualifiés que des journalistes. Malheureusement, les journalistes sont souvent assez méfiants. Ils pensent que nous allons voler leur métier. Ce n’est pas notre objectif, ni même possible. C’est pour ça que je déteste le terme « robot-journalisme ».

∎ Comment balayer les craintes des journalistes au sujet des machines ?

Les machines ne vont pas remplacer les journalistes. Les journalistes diffusent de la compréhension, de l’interprétation. Aucune machine ne peut faire ça. Malheureusement, les médias sont en difficulté. Les effectifs baissent depuis des décennies. Il n’y a pas de corrélation avec l’arrivée des technologies de génération de texte, qui apportent même un revenu supplémentaire. Mais selon un phénomène très humain, il faut trouver un coupable… Et ce sont les entrepreneurs pourris qui font de l’IA. Ça va continuer, c’est comme ça ! Ces peurs sont logiques. Il faut en parler, expliquer, petit à petit. Ceci dit, ces peurs sont aussi culturelles. Cela fait plus d’un siècle que toutes les machines intelligentes du cinéma et de la littérature veulent nous tuer ou nous réduire en esclavage…

∎ Comment le public des médias perçoit-il les textes de Syllabs ? Avec suspicion ?

Malheureusement, je ne crois pas. Vous avez conscience de l’évolution de l’opinion publique envers les journalistes. Sur les réseaux sociaux, quand certains affirment que l’intelligence artificielle vole leur boulot, d’autres disent que, contrairement aux journalistes, les machines ne mentent pas ou ne glissent pas leur opinion dans leurs articles…

∎ La crise de confiance envers les médias pourrait donc être un argument pour vous ?

Je refuse que ce soit un argument pour nous ! Et de toute façon, nous ne ferons jamais le même métier. Pour éviter toute confusion, nous recommandons à nos clients de signaler nos textes aux lecteurs. Tous les médias avec lesquels nous avons travaillé l’ont fait. De toute façon, ce n’est qu’un transfert de confiance. Quand nos données sont justes, nos textes sont justes. Quand elles sont fausses, ils sont faux. Pendant un test, l’une des nos machines a commis une erreur dans un résultat de match de foot et mentionné 360 buts. Ça aurait pu arriver en production. Un humain n’aurait jamais laissé passer ça.

∎ On pourrait accuser Syllabs et ses semblables de standardiser l’écriture en inondant Internet de textes ultra-utilitaires. Ça vous inspire quoi ?

Nos clients demandent souvent un travail sur le SEO, mais ce travail d’optimisation ne se fait pas au détriment du contenu. Quant à l’uniformisation… Même quand nous produisons plusieurs dizaines de milliers de textes, notamment pour les élections, nous sommes dans des contextes extrêmement spécifiques. Par contre, oui, Internet va être inondé. Mais ce n’est pas un terme négatif. Je préfère dire que le web finira par contenir toutes les informations que cherchent les gens. Quand je voudrai la météo ou l’agenda culturel de mon petit village, je pourrai l’avoir. On n’inonde pas, on comble.

J’aimerais vraiment que des médias locaux utilisent notre technologie pour produire plein de textes à bas coût. Cela leur permettrait d’entretenir l’intérêt de leurs lecteurs et de laisser leurs journalistes se concentrer sur de la vraie valeur ajoutée.

∎ Quels sont les projets de Syllabs ? Peut-être des textes plus orientés, plus anglés ?

Nous travaillons sur des secteurs comme la finance, et d’autres dont je ne peux pas trop parler… Nous allons aussi développer notre capacité d’analyse des données avec des systèmes mixtes homme-machine : extraction d’information par analyse de textes entrants, validation manuelle, puis production de contenu.

Nous pourrions aller vers un système qui avance une opinion sur quelque chose, mais ce serait catastrophique pour tout le monde. Pour tout vous dire, pendant les élections, un média nous a demandé de produire des textes plus catastrophistes quand le Rassemblement national gagnait. Nous ne voulons pas, car on ne peut pas confier une telle responsabilité à une machine, mais aussi parce que ça ne marcherait pas bien. Même GPT-3 ne connaît absolument rien du monde, ses connaissances sont uniquement linguistiques. Du coup, créer une machine qui générerait une opinion sans connaissance du monde serait une erreur fondamentale… Et même super dangereux. Certes, chaque humain a une connaissance du monde biaisée, mais on le sait, c’est assumé… Et aucun humain ne peut produire 140 000 textes en quatre heures.

Boîte Noire est la newsletter hebdomadaire sur l’intelligence artificielle de Sébastien Wesolowski. Inscrivez-vous par ici : http://eepurl.com/hivYvT

--

--

Boîte noire
Boîte noire

Written by Boîte noire

Boîte Noire est une newsletter hebdomadaire sur l’intelligence artificielle. Inscrivez-vous par ici : http://eepurl.com/hivYvT