Emergence du langage avec les jeux multi-agents: apprendre à communiquer avec des séquences de symboles

Serhii Havrylov et Ivan Titov (partenaires de recherche ML de l'Université d'Edimbourg / Université d'Amsterdam)

La langue a été un outil essentiel de la civilisation humaine pour transférer le savoir aux nouvelles générations. L’origine de la langue captive l’esprit des gens depuis des siècles et a donné lieu à plusieurs études.

Cependant, jusqu'à récemment, presque tous les modèles mathématiques examinant l'émergence du langage devaient être restreints à des espaces d'observation simples et de faible dimension en raison de limitations algorithmiques et informatiques. Ces dernières années, la communauté de l'apprentissage en profondeur a montré un intérêt considérable pour ce problème. Le post suivant présente nos principales contributions dans le domaine de la linguistique et de l'apprentissage automatique formées au cours de notre projet de recherche commun avec l'équipe de recherche sur l'apprentissage automatique de SAP.

Jouer à un jeu de référence

L'un des défis les plus élémentaires de l'utilisation d'une langue est de se référer à des éléments spécifiques. Il n’est donc pas surprenant qu’un jeu de référence constitue un cadre privilégié dans le domaine de l’apprentissage de la communication. Composés d'un certain nombre de tâches de raisonnement interactives confinées, ces jeux permettent d'examiner l'inférence pragmatique de machines dans un environnement contrôlé. Bien que de nombreuses extensions du jeu de référentiel principal soient possibles, nous avons décidé de procéder à la configuration du jeu suivante:

  1. Une image cible est choisie parmi une collection d'images avec \ (K \) images distrayantes.
  2. Il y a deux agents: un expéditeur et un destinataire.
  3. Après avoir vu l'image cible, l'expéditeur doit créer un message qui est représenté par une séquence de symboles du vocabulaire d'une taille fixe. Il y a une longueur maximale possible de séquence.
  4. Compte tenu du message généré et de l'ensemble des images consistant en des images gênantes et l'image cible, le destinataire doit identifier la bonne image cible.

Par conséquent, pour réussir ce jeu de référence, l'expéditeur doit soigneusement choisir les mots et les mettre dans un ordre permettant au destinataire d'identifier correctement l'image qui a été montrée à l'expéditeur. Le paramètre est fondamentalement différent des études précédentes dans ce domaine car notre approche utilise par exemple des séquences plutôt que des symboles simples pour générer des messages, ce qui rend notre paramètre plus réaliste et plus stimulant du point de vue de l'apprentissage.

Agents

Les deux agents, émetteur et récepteur, sont implémentés sous la forme de réseaux de neurones récurrents, à savoir les réseaux de mémoire longs et à court terme, qui constituent l'un des outils standard pour générer et traiter des séquences. La figure ci-dessous montre l'esquisse d'un modèle où les flèches pleines représentent des calculs déterministes. Les flèches en pointillés représentent la copie d'un mot déjà obtenu. Et enfin, les flèches en forme de losange représentent l'échantillonnage d'un mot du vocabulaire.

C’est probablement la partie la plus importante et la plus gênante du modèle. D'une part, c'est un élément crucial car c'est l'endroit où un expéditeur prend des décisions sur ce qu'il doit dire ensuite. D'autre part, c'est gênant parce que stochastique. Malheureusement, un algorithme de rétropropagation omniprésent repose sur la présence de chaînes de fonctions différenciables continues dans chacune des couches du réseau neuronal. Cependant, cette architecture particulière contient un échantillonnage non différentiable de la distribution de probabilité discrète, ce qui signifie que nous ne pouvons pas utiliser la rétropropagation tout de suite.

Le système visuel d'un émetteur est implémenté sous la forme d'un réseau de neurones à convolution (CNN). Dans notre cas, les images sont représentées par les sorties de l'avant-dernière couche cachée du CNN. Comme vous pouvez le voir sur la figure ci-dessus, un message est obtenu par échantillonnage séquentiel jusqu'à ce que la longueur maximale possible soit atteinte ou que le jeton spécial «fin d'un message» soit généré.

Apprentissage

Il est relativement facile d'apprendre le comportement d'un agent récepteur dans le contexte du jeu référentiel. Puisqu'il est différentiable de bout en bout, les gradients de la fonction de perte par rapport à ses paramètres peuvent être estimés efficacement. Le véritable défi consiste à apprendre l'agent émetteur. Son graphe de calcul contient un échantillonnage, ce qui le rend non différentiable. Comme base, nous avons implémenté un algorithme REINFORCE. Cette méthode fournit un moyen simple d’estimer les gradients de la fonction de perte en fonction des paramètres de la politique stochastique. Même s'il est impartial, il présente généralement une variance énorme, ce qui ralentit l'apprentissage d'un modèle. Heureusement, l'année dernière, deux groupes ont découvert indépendamment un estimateur biaisé mais à faible variance, l'estimateur de Gumbel-Softmax (estimateur GS). Cela permet de relâcher une variable discrète originale avec sa contrepartie continue. Cela rend tout différentiable, ce qui permet l’application d’un algorithme de rétropropagation. Comme ce sujet est assez volumineux et mérite sa propre publication, nous vous encourageons à lire une publication sur le blog de l’un des auteurs de cette méthode.

Nos découvertes

La première chose que nous avons examinée après avoir appris le modèle était le taux de réussite de la communication. Nous considérons que la communication entre deux agents a réussi lorsque l'image cible est correctement identifiée. Comme le montre la figure ci-dessous, les résultats obtenus avec l'estimateur Gumbel-Softmax (courbes rouge et bleue) sont supérieurs à ceux de l'algorithme REINFORCE (courbes jaune et verte), sauf lorsque les agents sont autorisés à communiquer uniquement avec un mot.

Nous supposons que dans ce contexte relativement simple, la variance de REINFORCE n’est pas un problème et que la propriété d’être impartial est rentable. Dans le même temps, le biais de l’estimateur GS l’a écarté de la solution optimale. En outre, cette intrigue va de pair avec l'intuition et montre clairement qu'en utilisant plus de mots, on peut décrire une image plus précisément.

Nous avons également étudié le nombre d'interactions entre les agents à effectuer pour apprendre le protocole de communication. À notre grande surprise, nous avons constaté que le nombre de mises à jour requises pour atteindre la convergence de la formation avec l'estimateur GS (courbe verte) diminue lorsque nous permettons à un expéditeur d'utiliser des messages plus longs. Ce comportement est légèrement contre-intuitif car on pourrait s’attendre à ce qu’il soit plus difficile d’apprendre un protocole lorsque l’espace de recherche des protocoles de communication est plus grand. En d'autres termes, l'utilisation de séquences plus longues permet d'apprendre un protocole de communication plus rapidement. Cependant, ce n'est pas le cas pour l'estimateur REINFORCE (courbe rouge): la mise à jour nécessite généralement cinq fois plus de mises à jour que l'estimateur GS. En outre, il n'y a pas de dépendance claire entre le nombre de mises à jour nécessaires pour converger et la longueur maximale possible d'un message.

De plus, nous traçons la perplexité du codeur, qui mesure sans doute le nombre d'options qu'un expéditeur doit choisir dans chacun des pas de temps tout en échantillonnant à partir de la distribution de probabilité sur le vocabulaire. Nous avons pu constater que pour l'estimateur GS (courbe verte), le nombre d'options est relativement élevé et augmente avec la longueur de la phrase, alors que pour l'algorithme REINFORCE (courbe rouge), l'augmentation de la perplexité n'est pas aussi rapide. Cela implique une redondance dans les codages, ce qui signifie qu'il existe plusieurs paraphrases codant pour le même contenu sémantique.

A quoi ressemble la langue apprise? Afin de mieux comprendre la nature de cette langue, nous avons inspecté un petit sous-ensemble de phrases avec une longueur de message maximale possible égale à 5 unités produites par le modèle. Tout d'abord, nous avons pris une photo aléatoire d'un objet et généré un message. Ensuite, nous avons itéré sur le jeu de données et sélectionné des images au hasard avec des messages partageant des préfixes de 1, 2 et 3 symboles avec le message généré.

Par exemple, la première ligne de la figure de gauche, qui utilise un sous-ensemble d'images d'animaux, montre des échantillons correspondant au code (5747 * * * *). “*” Désigne ici n'importe quel mot du vocabulaire ou du remplissage de fin de phrase.

Cependant, il semble que les images du code (* * * 5747 *) ne correspondent à aucune catégorie prédéfinie. Cela suggère que l'ordre des mots est crucial dans la langue développée. En particulier, le mot 5747 en première position code la présence d'un animal dans l'image. La même figure montre que le message (5747 5747 7125 * *) correspond à une espèce particulière d'ours, ce qui montre que le langage développé implémente une sorte de codage hiérarchique. Ceci est d’un grand intérêt car le modèle n’a pas été explicitement contraint à utiliser un schéma de codage hiérarchique. Vraisemblablement, ce schéma peut aider le modèle à décrire efficacement des images invisibles. Néanmoins, le langage naturel utilise d'autres principes pour assurer la compositionnalité. Le modèle semble être généralement applicable car il présente un comportement similaire pour les images du domaine alimentaire (image de droite dans la figure ci-dessus).

Dans notre étude, nous avons montré que les agents modélisés à l'aide de réseaux de neurones peuvent inventer avec succès un langage efficace constitué de séquences de jetons discrets. Nous avons également constaté que les agents peuvent développer un protocole de communication plus rapidement lorsque nous leur permettons d'utiliser des séquences de symboles plus longues. De plus, nous avons observé que le langage induit implémentait un schéma de codage hiérarchique et qu'il existait plusieurs paraphrases codant le même contenu sémantique. Dans les travaux futurs, nous souhaiterions élargir cette approche à la modélisation de systèmes de dialogue axés sur les objectifs.

Les chatbots et les plates-formes d'IA conversationnelle sont devenus de plus en plus importants dans le secteur des entreprises, en particulier dans les secteurs de la banque, des assurances et des télécommunications. Cependant, les approches actuelles pour construire ces technologies reposent toujours sur une supervision humaine étendue. Les humains ont besoin de construire des règles ou de fournir des exemples de dialogues réussis, utilisés pour former les assistants intelligents. Cela est difficile à adapter à des tâches complexes car la supervision de la qualité est coûteuse et prend du temps. De plus, les approches humaines peuvent être incohérentes ou il peut exister des moyens plus efficaces de résoudre les tâches. Notre approche recèle un potentiel prometteur pour remplacer ou compléter ce scénario standard: les chatbots pourraient alors utiliser les informations en retour sur l'achèvement des tâches, permettant ainsi une supervision plus rentable. À un moment donné, cela pourrait aider à créer des assistants numériques performants plus rapidement et avec moins de dépenses. Nous nous attendons également à ce que cela permette aux machines de faire face à de nouveaux scénarios et à des modifications des paramètres existants sans intervention humaine explicite ni nécessité de nouveaux ensembles de données.

Nous avons présenté nos travaux à NIPS’17. Pour plus d'informations et les détails techniques de notre étude, veuillez consulter: Emergence du langage avec les jeux multi-agents: apprendre à communiquer avec des séquences de symboles.