Photo de Radu Marcusu

BestLe meilleur et le plus courant du traitement du langage naturel moderne

Au cours des deux dernières années, la communauté de traitement du langage naturel a assisté à une accélération des progrès dans un large éventail de tâches et d'applications différentes. Ce progrès a été rendu possible par un changement de paradigme dans la façon dont nous construisons un système de PNL de manière classique: pendant longtemps, nous avons utilisé des mots incorporés pré-formés, tels que word2vec ou GloVe, pour initialiser la première couche d'un réseau de neurones, suivie d'un architecture spécifique à une tâche qui est formée de manière supervisée à l'aide d'un seul jeu de données.

Récemment, plusieurs travaux ont démontré que nous pouvons apprendre des représentations contextuelles hiérarchisées sur des jeux de données à l'échelle Web, en exploitant des signaux non supervisés (ou auto-supervisés) tels que la modélisation du langage et en transférant cette pré-formation à des tâches en aval (Transfer Learning). Ce changement passionnant a conduit à des avancées significatives sur un large éventail d'applications en aval, allant de la réponse à la question à l'inférence en langage naturel en passant par l'analyse syntaxique…

"Quels articles puis-je lire pour suivre les dernières tendances de la PNL moderne?"

Il y a quelques semaines, un de mes amis a décidé de se lancer dans la PNL. Il a déjà une formation en apprentissage automatique et en apprentissage approfondi. Il m'a donc demandé: «Quels papiers puis-je lire pour suivre les dernières tendances de la PNL moderne?».

C’est une très bonne question, surtout si l’on tient compte du fait que les conférences NLP (et les conférences ML en général) reçoivent un nombre de soumissions en croissance exponentielle: +80% NAACL 2019 VS 2018, + 90% ACL 2019 VS 2018,…

J'ai compilé cette liste de documents et de ressources pour lui, et j'ai pensé que ce serait bien de la partager avec la communauté, car je pense que cela peut être utile pour beaucoup de gens.

Clause de non-responsabilité: cette liste ne prétend pas être exhaustive, ni couvrir tous les sujets de la PNL (par exemple, il n’existe rien sur l’analyse sémantique, l’apprentissage contradictoire, l’apprentissage par renforcement appliqué à la PNL,…). C'est plutôt une sélection des travaux les plus récents ayant eu le plus d'impact ces dernières années / mois (à partir de mai 2019), principalement influencés par ce que j'ai lu.

En règle générale, un bon moyen de commencer est de lire les articles de blog introductifs ou résumés avec une vue de haut niveau qui vous donne suffisamment de contexte avant de passer du temps à lire un article (par exemple, cet article ou celui-ci).

Qui a dit que les modèles de nommage devraient être ennuyeux et tristes? - Source: Moviefone

Un nouveau paradigme: l'apprentissage par transfert

Ces références couvrent les idées fondamentales de Transfer Learning for NLP:

  • Représentations profondes des mots contextualisés (NAACL 2018)
    Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
  • Modèle de langage universel - Réglage précis pour la classification de texte (ACL 2018)
    Jeremy Howard, Sebastian Ruder
  • Améliorer la compréhension des langues grâce à une pré-formation générative
    Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever
  • Les modèles de langue sont des apprenants multitâches non supervisés
    Alec Radford, Jeffrey Wu, Enfant Rewon, David Luan, Dario Amodei, Ilya Sutskever
  • BERT: pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage (NAACL 2019)
    Jacob Devlin, Chang Ming-Wei, Kenton Lee, Kristina Toutanova
  • Prétrainement des réseaux d'auto-attention par Cloze (arXiv 2019)
    Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, Michael Auli
  • Modèle de langage unifié Pré-formation à la compréhension et à la génération en langage naturel (arXiv 2019)
    Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon
  • MASS: Pré-formation de séquence masquée à séquence pour la génération de langage (ICML 2019)
    Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu
L'architecture de Transformer est devenue omniprésente dans les tâches de modélisation séquentielle. - Source: L'attention est tout ce dont vous avez besoin

Learning Apprentissage de la représentation:

  • Ce que vous pouvez entasser en un seul vecteur: Enquêter sur les imbrications de phrases pour les propriétés linguistiques (ACL 2018)
    Alexis Conneau, Allemand Kruszewski, Guillaume Lample, Loïc Barrault, Marco Baroni
  • Aucune formation requise: exploration des codeurs aléatoires pour la classification des phrases (ICLR 2019)
    John Wieting, Douwe Kiela
  • GLUE: Plateforme d'analyse et de test multi-tâches pour la compréhension en langage naturel (ICLR 2019)
    Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman
    et
    SuperGLUE: un test d'évaluation plus performant pour les systèmes comprenant un langage général (arXiv 2019)
    Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman
  • Connaissance linguistique et transférabilité des représentations contextuelles (NAACL 2019)
    Nelson F. Liu, Matt Gardner, Yonatan Belinkov, Matthew E. Peters, Noah A. Smith
  • Accorder ou ne pas accorder? Adapter les représentations prédéfinies à diverses tâches (arXiv 2019)
    Matthew Peters, Sebastian Ruder et Noah A. Smith

🗣 Dialogue neuronal:

  • Un modèle de conversation neural (Atelier ICML Deep Learning 2015)
    Oriol Vinyals, Quoc Le
  • Un modèle de conversation neuronale basé sur une personne (ACL 2016)
    Jiwei Li, Galley, Chris Brockett, Georgios P. Spithourakis, Jianfeng Gao, Bill Dolan
  • Un algorithme de décodage simple, rapide et diversifié pour la génération de neurones (arXiv 2017)
    Jiwei Li, Will Monroe, Dan Jurafsky
  • Approches neurales de l'IA conversationnelle (arXiv 2018)
    Jianfeng Gao, Michel Galley, Lihong Li
  • TransferTransfo: une approche d'apprentissage par transfert pour les agents conversationnels basés sur un réseau de neurones (atelier NeurIPS 2018 CAI)
    Thomas Wolf, Victor Sanh, Julien Chaumond, Clément Delangue
    Avertissement: je suis un auteur pour cette publication.
    Explication pas à pas sur le blog
  • Assistant de Wikipedia: agents de conversation basés sur la connaissance (ICLR 2019)
    Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, Jason Weston
  • Apprendre à parler et à jouer dans un jeu d'aventure en texte fantastique (arXiv 2019)
    Jack Urbanek, Angela Fan, Siddharth Karamcheti, Saachi Jain, Samuel Humeau, Emily Dinan, Tim Rocktäschel, Douwe Kiela, Arthur Szlam, Jason Weston

Divers choix:

  • Réseaux de pointeurs (NIPS 2015)
    Oriol Vinyals, Meire Fortunato, Navdeep Jaitly
  • Réseaux de mémoire de bout en bout (NIPS 2015)
    Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus
  • Aller au point: résumé avec les réseaux pointeur-générateur (ACL 2017)
    Abigail See, Peter J. Liu, Christopher D. Manning
  • Apprentissage supervisé de représentations de phrases universelles à partir de données d'inférence en langage naturel (EMNLP 2017)
    Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barrault, Antoine Bordes
  • Résolution de coronférence neuronale de bout en bout (EMNLP 2017)
    Kenton Lee, Luheng He, Mike Lewis, Luke Zettlemoyer
  • StarSpace: Intégrez tout! (AAAI 2018)
    Wu Ledell, Adam Fisch, Sumit Chopra, Keith Adams, Antoine Bordes, Jason Weston
  • Le décathlon en langage naturel: l'apprentissage multitâche comme réponse à une question (arXiv 2018)
    Bryan McCann, Nitish Shirish Keskar, Caiming Xiong, Richard Socher
  • Modélisation de langage au niveau du personnage avec une attention personnelle plus profonde (arXiv 2018)
    Rami Al-Rfou, Dokook Choe, Noah Constant, Mandy Guo, Llion Jones
  • Self-Attention informée sur la linguistique pour l’étiquetage des rôles sémantiques (EMNLP 2018)
    Emma Strubell, Patrick Verga, Daniel Andor, David Weiss, Andrew McCallum
  • Traduction automatique non supervisée basée sur des phrases et des neurones (EMNLP 2018)
    Guillaume Lample, Myle Ott, Alexis Conneau, Ludovic Denoyer, Marc’Aurelio Ranzato
  • Apprentissage de représentations de phrases distribuées à usage général via un apprentissage multitâche à grande échelle (ICLR 2018)
    Sandeep Subramanian, Adam Trischler, Yoshua Bengio, Christopher J Pal
  • Transformer-XL: Modèles de langage attentifs au-delà d'un contexte de longueur fixe (arXiv 2019)
    Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov
  • Transformateurs universels (ICLR 2019)
    Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, Łukasz Kaiser
  • Une approche simplissime embarrassante pour l'apprentissage par transfert à partir de modèles linguistiques prédéfinis (NAACL 2019)
    Alexandra Chronopoulou, Christos Baziotis, Alexandros Potamianos
  • … Pour les papiers plus anciens, le nombre de citations est généralement un proxy raisonnable pour choisir quoi lire.

En règle générale, vous devriez lire les articles que vous trouvez intéressants et susciter de la joie en vous!

Ressources générales

Vous pouvez utiliser une multitude de ressources étonnantes qui ne sont pas nécessairement des documents. Voici quelques-uns:

Livres:

  • Speech and Language Processing (3ème éd. Ébauche)
    Dan Jurafsky et James H. Martin
  • Méthodes de réseau neuronal pour le traitement du langage naturel
    Yoav Goldberg

Matériel de cours:

  • Compréhension du langage naturel et sémantique computationnelle avec Katharina Kann et Sam Bowman à NYU
  • CS224n: Traitement du langage naturel avec apprentissage en profondeur avec Chris Manning et Abigail See à Standford
  • Représentations verbales contextuelles: introduction contextuelle du matériel didactique de Noah A. Smith à l’UW

Blogs / podcasts:

  • Le blog de Sebastian Ruder
  • Le blog illustré de Jay Alammar
  • Les faits saillants de la PNL animés par Matt Gardner et Waleed Ammar

Autres:

  • Papiers avec code
  • Twitter
  • Bulletin quotidien d'arXiv
  • Documents d'enquête

Advice Dernier conseil

C’est tout pour les pointeurs! La lecture de certaines de ces ressources devrait déjà vous donner une bonne idée des dernières tendances de la PNL contemporaine et, espérons-le, vous aider à construire votre propre système de PNL!

Une dernière chose dont je n'ai pas beaucoup parlé dans ce billet, mais que je trouve extrêmement important (et parfois négligée), c'est que la lecture est bonne, la mise en œuvre est meilleure! Often Vous en apprendrez souvent beaucoup plus en complétant votre lecture par une plongée dans le code (parfois) joint ou en essayant de le mettre en œuvre vous-même. Les ressources pratiques incluent les articles de blog et les cours incroyables de fast.ai ou nos référentiels open-source.

Et vous? Quelles sont les œuvres qui ont eu le plus d'impact sur vous? Dites le nous dans les commentaires!

Comme toujours, si vous avez aimé cet article, donnez-nous quelques pour nous le faire savoir et partager les nouvelles autour de vous!

Un grand merci à Lysandre Debut, à Clément Delangue, à Thibault Févry, à Peter Martigny, à Anthony Moi et à Thomas Wolf pour leurs commentaires.