86 000 heures de discours pour unifier le machine learning

L’industrie de l’intelligence artificielle est un peu chaotique. MLCommons veut changer cela avec des benchmarks, des bases de données et des principes communs.

Boîte noire
6 min readFeb 22, 2021
Un modèle de prédiction de l’évolution d’un système chaotique au travail. Source.

Le machine learning évolue vite mais sans véritable contrôle : chaque semaine, une entreprise ou un laboratoire présente un nouveau modèle excitant… Et tellement customisé qu’il est impossible à déployer hors de son environnement de naissance, ce qui complique considérablement la diffusion de ces technologies au plus grand nombre.

L’organisation MLCommons veut combattre ce côté « prison dorée » et unifier l’industrie en diffusant des règles et des ressources communes à ses professionnels. Boîte Noire rencontre son directeur exécutif, David Kanter, pour parler de cette tâche audacieuse et de People’s Speech, le gigantesque dataset audio que l’organisation s’apprête à diffuser.

∎ Qu’est-ce que MLCommons ?

David Kanter : C’est une organisation globale qui tente de faire avancer le machine learning, de le transformer en un outil plus performant de façon à améliorer la société et le monde en général. Nous concentrons nos activités sur trois axes : concevoir des benchmarks, assembler des bases de données ouvertes, et développer des bonnes pratiques au sein de l’industrie.

∎ Comment est né MLCommons ?

Nous sommes issus de MLPerf, une précédente organisation qui développait seulement des benchmarks. Au fil de notre travail, nous avons remarqué que nous allions devoir grandir pour poursuivre nos activités. D’une part parce que nous avions besoin de données pour construire nos outils, mais aussi parce que MLPerf était avant tout une collaboration informelle. Il y a trois ans, Peter Madsen a donc créé MLCommons, et nous l’avons lancé officiellement en décembre dernier.

∎ Quels problèmes essayez-vous de résoudre ?

Je vois le machine learning comme une technologie similaire au vol, aux automobiles, au chemin de fer. Quand ces choses ont commencé, ces choses repoussaient les limites de l’ingénierie et de la science, et personne ne savait vraiment ce que nous allions en faire. Comme ces appareils étaient trop spécialisés pour leur temps, ils étaient construits à la main, sans standards de production. Je crois que le machine learning se trouve aujourd’hui dans ces stades initiaux : certaines entreprises ont des outils formidables, mais qui ont été construits de façon artisanale et qui ne peuvent donc pas être déployés pour le bénéfice de tous.

∎ Quelle solution proposez-vous ?

Nous devons tirer le machine learning de ce stade initial pour l’emmener vers plus de maturité afin que ses bénéfices irriguent plus largement nos sociétés. Avec ses axes de travail, MLCommons veut transformer les techniques restreintes de l’industrie actuelle en quelque chose de plus ouvert. Nos données permettront de construire plus de choses, et nos bonnes pratiques de les construire plus efficacement. De cette façon, plus d’individus et d’entreprises participeront aux avancées du secteur. Prenons la reconnaissance automatique de la parole : l’anglais et le mandarin sont les stars de ce domaine, alors que 300 langages comptent plus d’un million de locuteurs. Nous devons corriger cela.

∎ Votre dataset « People’s Speech » fait beaucoup parler. C’est quoi ?

People’s Speech contient 86 000 heures de discours, soit environ dix ans de langue parlée. L’année dernière, le plus grand dataset vocal ne contenait « que » quelques milliers d’heures. C’est important, car une règle tacite dit que vous avez besoin d’environ 10 000 heures de discours pour construire un système « text-to-speech » viable. People’s Speech va permettre de largement dépasser cette frontière. Notre inspiration est la base de données ImageNet, que je considère comme le catalyseur de la récente révolution dans l’intelligence artificielle. Si nous pouvons faire cela dans d’autres domaines, l’impact sera énorme.

∎ D’où proviennent ces 86 000 heures de langue parlée ?

Nos données proviennent de nombreux endroits différents mais les livres audio restent une source formidable. Enfin… Leurs forces sont aussi leurs faiblesses. Un acteur professionnel qui raconte une histoire dans un environnement acoustique impeccable, c’est bien, mais ça ne représente pas la réalité du langage parlé. Dans la vraie vie, quand vous êtes au téléphone, tout un tas de bruits de fond se superposent à votre voix : des voitures passent, d’autres gens parlent… De plus, dans de nombreux livres audio, les narrateurs n’ont pas d’accent. C’est pourtant quelque chose que nous devons absolument prendre en considération, surtout dans nos sociétés multiculturelles. La femme de l’un de nos membres est Chinoise et elle a grandi a Houston, et aucune enceinte connectée ne comprend son accent.

∎ People’s Speech n’est pas encore disponible. C’est normal ?

Lancer un dataset de ce genre représente un gros effort. Pour le moment, nous le gardons privé en attendant son analyse par nos membres. Nous voulons nous assurer que ce dataset sera utile et qu’il permettra d’améliorer la précision, ou toute autre métrique que vous pourriez utiliser pour un système de langage.

∎ Au fait, je ne suis pas sûr de bien comprendre ce que fait un benchmark pour système de machine learning…

Imaginez un devoir sur table rédigé par un maître de conférence pour mesurer les connaissances de ses étudiants. Nos benchmarks essaient de faire la même chose en se concentrant sur les éléments importants des systèmes de machine learning. Pour qu’ils soient justes et utiles, nous les élaborons en collaboration avec des spécialistes du domaine qu’ils concernent. Bien souvent, ils se concentrent sur la vitesse des modèles : à quelle vitesse pouvez-vous entraîner votre modèle, ou lui faire produire une nouvelle inférence ? Comme les systèmes de machine learning dépendent souvent de matériel et de logiciels extrêmement différents, nous essayons de produire des mesures qui fournissent un langage commun à tous les professionnels du secteur : commerciaux, chercheurs, ingénieurs…

∎ Comment MLCommons finance-t-il ses activités ?

MLCommons est une organisation à but non lucratif. Nous voulons avoir un impact positif sur la société, pas faire de l’argent. Pour le moment, nous sommes donc financés par nos membres, une quarantaine d’entreprises du monde entier mais aussi des particuliers, consultants ou professeurs. Certains fournissent aussi des ressources informatiques. Un jour, peut-être, nous pourrons prétendre à des subventions. En attendant, je suis ce qui ressemble le plus à un employé à plein temps chez MLCommons…

∎ Certains de vos membres viennent des universités, d’autres de l’industrie. Comment réconciliez-vous leurs visions respectives ?

Dès sa naissance, notre organisation comptait des chercheurs universitaires venus de Harvard, Stanford et Berkeley, mais aussi d’entreprises comme Google et Baidu. Le machine learning est une discipline qui évolue vite grâce au milieu académique, et ces chercheurs nous permettent de rester sur le fil du rasoir. Ceci dit, beaucoup de membres commerciaux disposent aussi de laboratoires de recherche, et ils travaillent sur des problématiques concrètes. Rester entre ces deux aspects, la recherche et le développement produit, nous permet de nous confronter à des problèmes courants. Pas question de travailler sur des problématiques vieilles de trente ans.

∎ Vous accueillez aussi des entreprises venues de pays aux relations tendues… Je n’avais jamais vu les noms de Google et Baidu aussi proches que sur votre site.

[Rires] En effet. Mais les entreprises membres viennent de tous les pays du monde, pas seulement des États-Unis et de la Chine. Jusqu’ici, nous avons réussi à nous garder des débats politiques, et j’espère que ça va continuer comme ça. J’aime nous considérer comme un genre d’Organisation des Nations unies : nous proposons un espace dans lequel les gens peuvent discuter librement, même si leurs pays d’origine ne sont pas en bons termes. Nous travaillons ensemble pour rester aussi internationaux et ouverts que possible. Ces principes font toujours de bien meilleures communautés.

∎ Cela ne pose pas de problème de concurrence ?

Il existe une longue tradition d’entreprises et d’organisations qui unissent leurs forces pour le bien commun. Open Standards, par exemple, ou l’USB. Dans les années 90, plusieurs géants de l’informatique se sont unis pour transformer ce connecteur en norme industrielle et manifestement, ils ont fait du bon travail. Nous voulons faire sensiblement la même chose. Même les entreprises concurrentes ont des intérêts communs. Aux débuts de MLCommons, je redoutais que nos premières réunions ne débordent de dédain et que les membres ne se déchirent sur la question des benchmarks. Mais finalement, les participants se sont entendus sur des principes et une approche. Certaines choses causent des débats en interne, bien sûr. Mais nous pouvons avoir ces désaccords en public et dans le respect, ce qui fait la force de notre communauté. ∎

Boîte Noire est la newsletter hebdomadaire sur l’intelligence artificielle de Sébastien Wesolowski. Inscrivez-vous par ici : http://eepurl.com/hivYvT

--

--

Boîte noire
Boîte noire

Written by Boîte noire

Boîte Noire est une newsletter hebdomadaire sur l’intelligence artificielle. Inscrivez-vous par ici : http://eepurl.com/hivYvT

No responses yet