Une brève histoire de l'ASR: la reconnaissance vocale automatique

Ceci est le premier article d'une série sur la reconnaissance vocale automatique, la technologie fondamentale qui rend possible la description. Nous explorerons l’état actuel du secteur, où il se dirigera - et, dans cette tranche, où il se trouve.

Descript est fier de faire partie d'une nouvelle génération de logiciels de création rendue possible par les récents progrès de la reconnaissance vocale automatique (ASR). C’est une période passionnante: la technologie a récemment franchi un seuil qui lui permet d’exploiter sa promesse de longue date en termes d’utilité remarquable, et elle ne fait que s’améliorer.

Ce moment a été long à venir. La technologie à la base de la reconnaissance vocale est en développement depuis plus d’un demi-siècle et a traversé plusieurs périodes de promesses intenses - et de déception. Alors, qu'est-ce qui a changé pour que l'ASR soit viable dans les applications commerciales? Et qu'est-ce que ces systèmes pouvaient accomplir, bien avant que l'un de nous n'ait entendu parler de Siri?

L'histoire de la reconnaissance vocale concerne autant l'application de différentes approches que le développement de la technologie brute, bien que les deux soient inextricablement liées. Pendant plusieurs décennies, les chercheurs ont imaginé une multitude de méthodes pour disséquer le langage: par les sons, par la structure - et par la statistique.

Premiers jours

L’intérêt humain pour la reconnaissance et la synthèse du discours remonte à des centaines d’années (du moins!) - mais ce n’est qu’au milieu du XXe siècle que nos ancêtres ont construit quelque chose de reconnaissable comme ASR.

1961 - Boîte à chaussures IBM

Parmi les premiers projets, citons Audrey, un «logiciel de reconnaissance des chiffres», créé en 1952 par des chercheurs de Bell Laboratories. Audrey pouvait reconnaître les chiffres numériques parlés en recherchant des empreintes sonores appelées formants¹ - les essences de sons distillées.

Dans les années 1960, IBM développa Shoebox, un système capable de reconnaître les chiffres et les commandes arithmétiques telles que «plus» et «total». Mieux encore, Shoebox pourrait transmettre le problème mathématique à une calculatrice qui calculerait et imprimerait la réponse².

Pendant ce temps, des chercheurs japonais ont construit un matériel capable de reconnaître les éléments constitutifs du discours comme des voyelles; d'autres systèmes pourraient évaluer la structure de la parole pour déterminer la fin d'un mot. Et une équipe de l'University College en Angleterre a pu reconnaître 4 voyelles et 9 consonnes en analysant des phonèmes, les sons discrets d'une langue¹.

Mais alors que le terrain faisait des pas en avant, il n’était pas nécessairement clair où allait le chemin. Et puis: désastre.

Octobre 1969 - Le journal de la société acoustique d'Amérique

Un gel perçant

Le tournant fut pris par une lettre écrite par John R. Pierce en 1969.

Pierce s’est depuis longtemps établi comme un ingénieur de renommée internationale; Parmi d'autres réalisations, il a inventé le mot transistor (aujourd'hui omniprésent dans l'ingénierie) et a contribué au lancement du premier satellite de communication Echo I. En 1969, il était cadre chez Bell Labs, qui avait beaucoup investi dans le développement de la reconnaissance de la parole.

Dans une lettre ouverte³ publiée dans le Journal de la société américaine de acoustique, Pierce exposa ses préoccupations. Citant un environnement de financement «luxuriant» au lendemain de la Seconde Guerre mondiale et de Spoutnik, et son manque de responsabilité, Pierce a réprimandé le secteur pour son manque de rigueur scientifique, affirmant qu'il y avait trop d'expérimentations sauvages en cours:

"Nous croyons tous qu'une science de la parole est possible, malgré la rareté des personnes qui se comportent en scientifiques et des résultats qui ressemblent à de la science." - J.R. Pierce, 1969

Pierce a mis l’argent de son employeur à sa place: il a financé les programmes ASR de Bell, qui ne seraient rétablis qu’après sa démission en 1971.

Les progrès se poursuivent

Heureusement, il y avait plus d'optimisme ailleurs. Au début des années 1970, l’ARPA du ministère de la Défense des États-Unis (l’organisme maintenant connu sous le nom de DARPA) finança un programme quinquennal appelé Speech Understanding Research. Cela a conduit à la création de plusieurs nouveaux systèmes de reconnaissance vocale assistée par ordinateur, dont le plus réussi est la harpie de l’Université Carnegie Mellon, capable de reconnaître un peu plus de 1 000 mots en 1976.

Dans le même temps, les laboratoires IBM et AT & T, les laboratoires Bell, ont poussé la technologie vers des applications commerciales possibles. IBM a donné la priorité à la transcription des conversations dans le contexte de la correspondance au bureau et Bell s’intéressait aux scénarios de «commandement et contrôle»: précurseurs de la composition vocale et des systèmes téléphoniques automatisés que nous connaissons aujourd’hui¹.

En dépit de ces progrès, à la fin des années 1970, l'ASR était encore loin d'être viable pour des utilisations autres que celles très spécifiques.

Cela me fait mal à la tête aussi.

Les années 80: Markovs and More

La popularisation des modèles de Markov cachés (HMM) au milieu des années 1980 a constitué un tournant décisif. Cette approche représentait un glissement significatif «des méthodes de reconnaissance de modèle simples, basées sur des modèles et une mesure de distance spectrale, vers une méthode statistique de traitement de la parole» ⁴, qui se traduisait par un bond en avant de la précision.

Une grande partie de l'amélioration des systèmes de reconnaissance de la parole depuis la fin des années 1960 est due à la puissance de cette approche statistique, associée aux progrès de la technologie informatique nécessaires à la mise en œuvre de la technologie HMM.

Les HMM ont pris d'assaut l'industrie - mais ils n'ont pas connu le succès du jour au lendemain. Jim Baker les a d'abord appliqués à la reconnaissance de la parole au début des années 1970 à la CMU, et les modèles eux-mêmes avaient été décrits par Leonard E. Baum dans les années 60. Ce n’est qu’en 1980, lorsque Jack Ferguson a donné une série de conférences éclairantes à l’Institute for Defense Analyses, que la technique a commencé à se diffuser plus largement.

Le succès des HMM a validé les travaux de Frederick Jelinek du centre de recherche Watson d’IBM, qui, depuis le début des années 1970, préconisait l’utilisation de modèles statistiques pour interpréter la parole, au lieu d’essayer de faire en sorte que les ordinateurs imitent la façon dont les êtres humains digèrent le langage: syntaxe et grammaire (une approche commune à l'époque). Comme Jelinek l’a dit plus tard: «Les avions ne battent pas des ailes.»

Ces approches axées sur les données ont également facilité les progrès, liés autant à la collaboration et à la responsabilisation du secteur qu’aux moments individuels de l’eureka. Avec la popularité croissante des modèles statistiques, le champ ASR a commencé à se regrouper autour d’une série de tests qui fourniraient une référence normalisée à laquelle comparer. Cela a également été encouragé par la publication d'ensembles de données partagées: d'importants corpus de données que les chercheurs pourraient utiliser pour former et tester leurs modèles.

En d’autres termes: enfin, il existait un moyen (imparfait) de mesurer et de comparer les succès.

Novembre 1990, Infoworld

Disponibilité pour le consommateur - Les années 90

Pour le meilleur et pour le pire, les années 90 ont initié les consommateurs à la reconnaissance automatique de la parole sous une forme inconnue de nos jours. Dragon Dictate a été lancé en 1990 au prix incroyable de 9 000 dollars. Il propose un dictionnaire de 80 000 mots et fonctionnalités comme le traitement du langage naturel (voir l'article d'Infoworld ci-dessus).

Ces outils prenaient beaucoup de temps (l’article affirme le contraire, mais Dragon est devenu connu pour inciter les utilisateurs à «former» le logiciel de dictée à leur propre voix). Et il fallait que les utilisateurs parlent d'une manière échaudée: Dragon ne pouvait initialement reconnaître que 30 à 40 mots à la minute; les gens parlent généralement quatre fois plus vite que cela.

Mais cela a assez bien fonctionné pour que Dragon devienne une entreprise comptant des centaines d’employés et de clients couvrant tous les domaines de la santé, du droit et plus encore. En 1997, la société a lancé Dragon NaturallySpeaking, qui pouvait capturer les mots à un rythme plus fluide - et, à 150 $, un prix beaucoup plus bas.

Même dans ce cas, il a peut-être été autant de plaintes que de cris de joie: dans la mesure où le scepticisme des consommateurs à l’égard de l’ASR aujourd’hui, une part du mérite revient au marketing trop enthousiaste de ces premiers produits. Mais sans les efforts des pionniers du secteur, James et Janet Baker (fondateurs de Dragon Systems en 1982), la production de ASR aurait pris beaucoup plus de temps.

Novembre 1993, IEEE Communications Magazine

La reconnaissance de la parole: la suite

25 ans après la publication de l'article de J.R. Pierce, l'IEEE a publié un suivi intitulé "Reconnaissance de la parole: les 25 prochaines années", rédigé par deux employés principaux de Bell Laboratories (la même institution que celle où Pierce travaillait).

Ce dernier article examine l’état de l’industrie vers 1993, au moment de la publication du document, et sert en quelque sorte de réfutation du pessimisme de l’original. Parmi ses plats à emporter:

  • Le problème clé de la lettre de Pierce était qu’il supposait que, pour que la reconnaissance de la parole devienne utile, les ordinateurs devaient comprendre la signification des mots. Compte tenu de la technologie de l'époque, cela était totalement irréalisable.
  • En un sens, Pierce avait raison: dès 1993, les ordinateurs comprenaient mal le langage - et en 2018, ils sont toujours notoirement mauvais pour discerner le sens.
  • L’erreur de Pierce réside dans son incapacité à anticiper les innombrables façons dont la reconnaissance vocale peut être utile, même lorsque l’ordinateur ne sait pas ce que les mots veulent dire.

La suite de Whither se termine par un pronostic, prévoyant où allait l'ASR dans les années après 1993. La section est conçue en couvertures effrontées ("Nous prédisons avec confiance qu'au moins une de ces huit prédictions se révélera fausse") c'est intrigant quand même. Parmi leurs huit prédictions:

  • «D'ici l'an 2000, davantage de personnes obtiendront des informations à distance via des dialogues vocaux plutôt qu'en tapant des commandes sur les claviers d'ordinateur pour accéder à des bases de données distantes.»
  • «Les gens vont apprendre à modifier leurs habitudes de parole pour utiliser des dispositifs de reconnaissance vocale, tout comme ils ont changé leur comportement de parole pour laisser des messages sur les répondeurs. Même s'ils vont apprendre à utiliser cette technologie, les gens vont toujours se plaindre de la reconnaissance vocale. ”

Le cheval noir

Dans un prochain article de cette série, nous explorerons des développements plus récents et l’état actuel de la reconnaissance automatique de la parole. Alerte spoiler: les réseaux de neurones ont joué un rôle de premier plan.

Mais les réseaux de neurones sont en réalité aussi vieux que la plupart des approches décrites ici - ils ont été introduits dans les années 1950¹! Ce n’est pas avant la puissance de calcul de l’ère moderne (avec des ensembles de données beaucoup plus vastes) qu’ils ont changé le paysage.

Mais nous sommes en avance sur nous-mêmes. Restez à l'écoute pour notre prochain article sur la reconnaissance vocale automatique en suivant Descript sur Medium, Twitter ou Facebook.

Chronologie via Juang & Rabiner¹

Remarque: l'histoire d'ASR est remplie de plus de contributeurs et d'innovations que nous ne pouvons en détailler dans cet article. nous avons couvert quelques jalons importants et inclus des liens vers des lectures supplémentaires ci-dessous. Si nous avons oublié quelque chose de vital, faites-le nous savoir!

Lectures complémentaires

Voici les ressources qui ont été utiles pour la rédaction de cet article, dont certaines sont beaucoup plus détaillées:

  1. Reconnaissance vocale automatique - Bref historique du développement technologique. B.H. Juang & Lawrence R. Rabiner. Si vous souhaitez en savoir plus sur l’histoire de la RSA, c’est une excellente ressource.
  2. Shoebox - Expositions sur l'histoire d'IBM

3. Où va la reconnaissance vocale? - J.R. Pierce

4. Première main: Le modèle caché de Markov - Lawrence R. Rabiner

5. Reconnaissance vocale de Whither: les 25 prochaines années - D.B. Roe & J.G. Wilpon

6. Chronologie de la reconnaissance vocale et vocale - Wikipedia

7. Reconnaissance vocale - Wikipedia

8. Article de Fortune sur Dragon Naturally Speaking, 1998 - Shaifali Puri

9. Frederick Jelinek, qui a donné aux machines la clé de la parole humaine, décède à 77 ans - Steve Lohr

10. Cinquante ans de progrès dans la reconnaissance de la parole et de la parole - Sadaoki Furui

Merci à Arlo Faria et Adam Janin de Remeeting qui ont fourni un contexte historique précieux.