État de l'apprentissage en profondeur: revue du H2 2018

Il est très difficile de suivre les évolutions dans un domaine comme celui de l’apprentissage en profondeur.

Plus tôt dans l’année, Robert Stojnic et moi-même avons travaillé ensemble avec Papers With Code pour résoudre ce problème. Ce site est une ressource communautaire qui associe des documents de recherche sur l'apprentissage approfondi à des implémentations de code.

Cela nous permet également d'avoir une vue à vol d'oiseau de l'ensemble du terrain. Nous pouvons voir quelles sont les tendances de la recherche, quels cadres sont adoptés par la communauté et quelles techniques gagnent en popularité. Cet article de blog détaille certains des résultats!

Dans cet article, nous résumons certaines des évolutions majeures de l'apprentissage en profondeur au second semestre de 2018 en utilisant les données du site. Nous discutons ensuite brièvement de la voie à suivre pour la communauté de l'apprentissage en profondeur.

Officiel le plus populaire: BERT, vid2vid et graph_nets

Le document BERT de Google AI a fait des vagues dans la communauté de l’apprentissage en profondeur en octobre. Le document propose un modèle de transformateur bidirectionnel complet qui offre des performances de pointe pour 11 tâches PNL, y compris les jeux de données Stanford Question Answering (SQuAD). Google AI open a obtenu le code de leur document. Il s’agit du référentiel d’apprentissage en profondeur qui a obtenu le plus grand nombre de vedettes entre juillet 2018 et le moment de la rédaction.

Le document de synthèse vidéo à vidéo de NVIDIA constituait un autre résultat étonnant pour la modélisation générative, qui est l’un des domaines d’apprentissage en profondeur les plus populaires de ces dernières années. Le document résout le problème de l'incohérence temporelle avec une nouvelle architecture de générateur séquentiel, ainsi qu'un certain nombre d'autres caractéristiques de conception, telles que les a priori d'avant-plan et d'arrière-plan, pour améliorer les performances. NVIDIA Open Source leur code, qui était la deuxième implémentation la plus populaire au second semestre 2018.

Le document de Google DeepMind sur les réseaux de graphes a suscité beaucoup d’attention au milieu de l’année en tant que nouveau type de données structurées que l’apprentissage en profondeur pouvait commencer à attaquer (la majorité des applications d’apprentissage en profondeur portaient sur des vecteurs et des séquences). Leur bibliothèque open source était la troisième implémentation la plus populaire au second semestre de 2018.

Communauté la plus populaire: DeOldify, BERT et Fast R-CNN

DeOldify utilise les SA-GAN, une architecture inspirée de PG-GAN et une règle de mise à jour à deux temps

Le projet DeOldify a suscité beaucoup d'intérêt de la part de la communauté de l'apprentissage en profondeur plus large. L'auteur, Jason Antic, a mis en œuvre les techniques de nombreux articles dans le domaine de la modélisation générative, notamment les GAN auto-attentifs, les GAN à croissance progressive et une règle de mise à jour à deux échéances. Le code du projet compte plus de 4 000 étoiles sur GitHub au moment de la rédaction.

La mise en œuvre de BERT par Junseong Kim pour PyTorch a également beaucoup retenu l'attention de la communauté. Étant donné que la communauté utilise de plus en plus de bâtiments dans l'un des deux cadres, il est grandement nécessaire que les documents soient mis en œuvre dans les deux cadres afin que l'ensemble de la communauté de l'apprentissage en profondeur puisse les utiliser. Le travail de Kim en est une illustration, et sa mise en œuvre bénéficie de plus de 1 500 étoiles GitHub au moment de la rédaction.

Enfin, l’implémentation de Mask R-CNN par Keras / TensorFlow de Waleed Abdulla a été la troisième implémentation communautaire la plus populaire en termes de gains de vedettes GitHub. Sur le plan architectural, l’implémentation utilise un réseau de pyramides à caractéristiques et un réseau principal ResNet101. La bibliothèque peut être utilisée pour un certain nombre d’applications telles que la reconstruction de bâtiments en 3D, la détection d’objets pour les voitures autonomes, la détection de types de bâtiments dans des cartes, etc. La bibliothèque compte plus de 8 000 étoiles sur GitHub.

Activité la plus courante: PNL et GAN

Les 50 champs les plus chauds semblent être les méthodes génératives et le traitement du langage naturel (PNL). Parmi les méthodes génératives, les implémentations populaires sur GitHub incluent: vid2vid, DeOldify, CycleGAN et faceswaps. Au sein de la PNL, les référentiels GitHub populaires incluent BERT, HanLP, jieba, AllenNLP et fastText.

1 nouveau code sur 7 a un code

L'un de nos objectifs avec le site était d'encourager les chercheurs en apprentissage approfondi à poster du code avec leurs recherches. Pas de code avec vos recherches? Vous ne parlez pas sur le site: c'est aussi simple que cela. Voici l'état d'avancement avec la reproductibilité sur notre plateforme:

  • Nous avons traité plus de 60 000 documents d'apprentissage automatique au cours des 5 dernières années.
  • Sur ces 60 000 papiers, environ 12% ont des implémentations de code
  • Au cours des 6 derniers mois, environ 15% des articles récemment publiés (soit 1 sur 7) ont implémenté du code

Il est clair qu'il reste encore du travail à faire, mais les choses vont dans la bonne direction!

Toutes les 20 minutes, un nouveau papier ML est né

Le taux de croissance des papiers d'apprentissage automatique se situe autour de 3,5% par mois depuis juillet, soit un taux de croissance annuel d'environ 50%. Cela signifie environ 2 200 documents d'apprentissage machine par mois et nous pouvons nous attendre à environ 30 000 nouveaux documents d'apprentissage machine l'année prochaine.

Comme vitesse de référence, nous pouvons comparer à la loi de Moore. La loi de Moore montre les progrès au premier niveau de l’informatique - la vitesse à laquelle nous pouvons traiter. L'apprentissage automatique peut être considéré comme une fonctionnalité acquise, mais aussi comme une abstraction au-dessus du matériel et des logiciels.

Le nombre de documents ML sur notre site semble augmenter plus rapidement que la loi de Moore au cours des trois dernières années, ce qui donne l’impression que les gens pensent que c’est de là que viendra la valeur future de l’informatique.

Le mérite de cette idée de comparaison vient de Jeff Dean et al. Https://ieeexplore.ieee.org/document/8259424

Duopole de cadre: TensorFlow et PyTorch

La majorité des implémentations sur le site semblent être dans TensorFlow, bien que PyTorch ne soit pas loin derrière. Les infrastructures restantes (MXNet, Torch et Caffe2) sont beaucoup moins présentes dans l'écosystème. Compte tenu des changements intervenus dans les deux frameworks - TensorFlow évoluant vers une exécution rapide, une nouvelle API inspirée de Keras et PyTorch cherchant à faciliter la production de modèles - il sera intéressant de voir comment cet équilibre évoluera au cours de la prochaine année.

Le chemin à parcourir

La communauté fait des progrès en matière de reproductibilité, mais le fait que nous n’ayons que 1/7 de couverture signifie que nous avons encore du travail à faire. Nous pensons que la communauté élargie aura un grand rôle à jouer dans la création de code ML réutilisable open source, au lieu de compter uniquement sur des chercheurs, comme nous l’avons fait par le passé.

En particulier, nous pensons que la «communauté ML indépendante» - qui ne fait pas partie des grandes entreprises comme Google et Facebook - contribuera à faire progresser la couverture du code pour la recherche et nous aidera également à vérifier si les résultats sur papier tiennent le coup.

Pour remporter ce prix, la communauté de recherche et la communauté de développeurs doivent se contacter afin de pouvoir créer des artefacts d'apprentissage automatique utiles pouvant être utilisés dans des applications du monde réel. Ce n'est qu'alors que l'apprentissage en profondeur atteindra son plein potentiel. À toute vapeur!

Vous avez aimé cet article et adoreriez travailler sur les ressources et outils de la prochaine génération sur le blanchiment d'argent? Rejoignez-nous, nous recrutons!