L’état de la reconnaissance vocale automatique: Questions-réponses avec Dan Povey de Kaldi

Cet article poursuit notre série sur la reconnaissance vocale automatique, y compris notre récent article sur l'histoire de la RSA.

Peu d’experts dans le domaine de la reconnaissance automatique de la parole ont le même point de vue que Daniel Povey. Povey est professeure agrégée de recherche au Centre de traitement du langage et de la parole de l'Université Johns Hopkins - et développeur principal et gestionnaire du projet Kaldi.

Kaldi est une boîte à outils ASR open source; depuis ses débuts en 2011, il a contribué à dynamiser le secteur, offrant aux chercheurs une base solide et flexible sur laquelle s'appuyer, tout en tirant parti des dernières techniques d'ASR. (En fait, Descript utilise Kaldi pour certaines de ses fonctionnalités!)

En raison de la prévalence de Kaldi sur le terrain, Povey est au fait de nombreux développements récents. Nous lui avons posé quelques questions sur l’état de l’industrie et nous sommes ravis qu’il ait répondu par une série de réponses réfléchies, que nous avons incluses en détail ci-dessous.

Quel est l'état de l'ASR aujourd'hui? Quelles sont ses principales lacunes et où les chercheurs / produits progressent le plus?

C’est bien qu’ASR commence à être utile maintenant. À mes débuts, le produit ASR le plus visible était Dragon Dictate, que peu de gens utilisaient réellement - je crois qu'il était commercialisé comme le cadeau de Noël idéal, trompeur. De nos jours, nous avons Amazon Alexa et Google Home, que les gens utilisent réellement - sans parler des systèmes de dialogue de centre d'appels. Ils sont agaçants, mais c’est souvent une limitation de la gestion du dialogue plutôt que de l’ASR.

Un inconvénient, à mon sens, est que la plupart des utilisations du RSA qui ont du sens sur le plan économique sont encore à très grande échelle, car elles nécessitent des experts hautement rémunérés et difficiles à trouver pour construire un système performant. Kaldi réduit cet obstacle, car cela signifie que vous n’aurez pas à créer votre logiciel à partir de rien. Il contient même des recettes que vous pouvez suivre, mais il a toujours été conçu pour être utilisé par des experts. Je pense à Kaldi comme au Faucon Millénaire. Bien sûr, il peut exécuter le Kessel en moins de 12 parsecs, mais comme Han le dit à Luke: "qui va le piloter, petit?"

Une équipe de chercheurs ajustant les paramètres Kaldi

En fait, c’est un problème pour les universitaires, car ASR se débrouille si bien. Certains organismes de financement le considèrent comme un «problème résolu». Cela signifie que nous ne pouvons pas obtenir beaucoup de diplômes de doctorat et que trop peu de docteurs obtiennent leur diplôme pour satisfaire la demande de l’industrie. De plus, bon nombre des meilleurs universitaires s’adonnent à l’industrie.

Où voyez-vous les points forts des services de transcription proposés par Google et d’autres grandes entreprises? Comment se comparent-ils à Kaldi et en quoi diffèrent-ils entre eux?

Il est difficile de créer un modèle général qui fonctionnera, ainsi qu’un modèle conçu pour votre tâche spécifique. Les modèles ASR de Google sont très bons, mais ils ne les personnaliseront pas pour votre scénario spécifique. De plus, leur service n’est pas gratuit, et des problèmes de confidentialité empêchent parfois l’utilisation d’un service cloud. Il est en fait difficile de savoir comment Kaldi se compare à l'ASR de Google, car ils ont tendance à ne pas divulguer les données de performances sur des ensembles de données couramment disponibles, mais nous pouvons les comparer à des systèmes construits par d'autres grandes entreprises (telles que Microsoft ou IBM).

De manière générale, Kaldi effectue à peu près la même chose. En fait, le meilleur nombre actuel du sous-ensemble de tableau de distribution Eval2000, qui correspond à un taux d'erreur de mot de 5,0%, est un système basé sur Kaldi - bien que nous ne l'ayons pas construit, mais par une société appelée cap.io. C’est une énorme combinaison de systèmes, ce que vous faites lorsque vous voulez obtenir le meilleur nombre jamais obtenu.

Une grande partie des progrès récents de l'ASR implique l'accès à de vastes corpus de données, ce qui donne un avantage aux grandes entreprises. Parallèlement, des initiatives telles que Mozilla Common Voice s’efforcent d’égaliser les chances, du moins à cet égard.

Comment envisagez-vous cela: le «Big Data» deviendra-t-il un avantage concurrentiel moindre?

Je conteste qu'une grande partie des progrès récents en matière de RSA implique un accès à de grandes quantités de données. Oui, il y a des articles qui disent: «Nous avons construit un énorme modèle sur des dizaines de milliers d'heures de données propriétaires et avons obtenu cette performance incroyable avec le tableau de distribution Eval2000». Ce type de papier peut constituer un énorme gain de relations publiques pour la société qui les a publiés, mais ils ne font pas avancer le domaine. Nous savons depuis toujours que plus vous avez de données, mieux vous pouvez le faire. Il n’ya donc rien de vraiment nouveau là-bas; et à mon avis, les personnes qui ont eu accès au Big Data ne l’ont pas utilisé pour développer de nouvelles méthodes particulièrement intéressantes. Quoi qu’il en soit, quelque chose qui ne fonctionne que sur 10 000 heures de données n’est pas si intéressant, à mon avis, car la plupart du temps, vous ne disposerez pas de autant de données du bon type.

Les gens ont tendance à être enthousiasmés par les choses qui fonctionnent avec le Big Data - c’est un peu la mode actuelle - mais je maintiens que les petites données sont tout aussi intéressantes. Si vous construisez une application pour laquelle vous ne disposez pas de données de formation qui correspondent bien - et la plupart des applications sont comme cela - vous voudrez probablement que cela fonctionne bien avec une formation avec 10 heures de données, afin de pouvoir construire un prototype avec des performances raisonnables. Cela vous permettra d’augmenter vos données (ou d’obtenir le prochain financement). C’est comme un poisson: pour devenir gros, il doit être capable de survivre quand il est petit, parce que les poissons ne sont pas nés gros.

Il y a certes un avantage à évoluer, mais je ne pense pas que ce soit juste à cause de l’échelle des données. C’est aussi le coût de la construction de votre application Ces coûts sont pour la plupart fixes (ils ne s’adaptent pas à la taille de votre marché). Par conséquent, pour réaliser un profit, vous devez disposer d’une certaine ampleur. Bien entendu, l’échelle à laquelle vous pouvez atteindre l’équilibre a tendance à diminuer avec le temps, à mesure que les algorithmes s’améliorent et que le logiciel devient plus facile à utiliser. De manière générale, le coût des données de formation sera toujours inférieur à celui que vous payez à vos ingénieurs ASR.

En ce qui concerne Mozilla Common Voice: c’est bien qu’ils collectent des données, et la gratuité des données est toujours une bonne chose, mais vous devez vous rappeler qu’il existe différents types de données. Si vous souhaitez créer, par exemple, un module de reconnaissance pour traiter les conversations de centre d'appels en anglais mixte avec un accent hindi et indien, ou un système capable de gérer les commandes en mandarin dans une voiture, les données de Mozilla Common Voice ne vous aideront pas. Et en termes de recherche, il existe déjà suffisamment de bases de données à grande échelle gratuites pour que les personnes puissent travailler avec (par exemple, Librispeech dure 1 000 heures). Donc, Mozilla Common Voice ne change pas vraiment la donne en matière de recherche. C’est toujours utile pour l’objet recherché, c’est-à-dire de construire des systèmes ASR pour un navigateur qui accepte les commandes vocales.

Les approches actuelles en matière de RSA comportent-elles des lacunes qui conduiront à des rendements décroissants? Pensez-vous que nous allons nous heurter à un «mur» en termes de précision?

Il y aura toujours une sorte de mur, parce que la parole humaine est intrinsèquement ambiguë, même en tenant compte du contexte. Je ne sais pas si je peux en dire beaucoup à ce sujet car les «approches actuelles» englobent beaucoup de choses. Ce que je vais dire, c'est que je suis sceptique quant à la passion actuelle pour la reconnaissance vocale «de bout en bout».

(Remarque: la plupart des systèmes ASR utilisent plusieurs modèles distincts - acoustique, prononciation et langage - en tandem. Les systèmes de bout en bout tentent de traiter la parole en une fois.)

À mon avis, la caractéristique fondamentale de ces approches «de bout en bout» est la tentative de sortir la structure du système: que cette structure soit le modèle de langage, la connaissance des prononciations de mots ou le concept d'extraction de caractéristiques de parole, et d'autres choses aussi.

C’est donc une simplification. Bien sûr, plus simple est bon, mais les gens oublient que la structure était là pour une raison. Par exemple, les mots ont vraiment des prononciations distinctes de leur orthographe; De plus, il est judicieux de former un modèle de langage séparément du système ASR, car vous pouvez utiliser des données texte distinctes pour cela. Les gens semblent penser qu’en retirant la structure du système, la poussière de fée des réseaux de neurones améliorera les performances, mais je pense que c’est un mirage.

Compte tenu de l'attention et de l'argent investis dans le RSA, les progrès pourraient-ils réellement s'accélérer?

Je pense que le mieux que nous puissions espérer, c’est que nous continuerons à progresser au même rythme que nous l’avons fait récemment. Une grande partie de l’attention accordée à l’ASR n’est de toute façon pas le genre d’attention qui contribuerait au progrès. Et certaines des améliorations récentes apportées à l'ASR proviennent d'idées développées en grande partie par des personnes ne travaillant pas dans l'ASR: par exemple, batch-norm ou RNNLM. Je serais très déçu si les progrès s'arrêtaient ici.