Meilleure recherche sur l'apprentissage approfondi de 2019 jusqu'à présent

Nous avons presque terminé le premier trimestre de 2019 et les recherches sur les technologies d’apprentissage en profondeur avancent très bien. Je surveille régulièrement les efforts des chercheurs en intelligence artificielle afin d’avertir l’orientation de la technologie. Cette clairvoyance me permet de mieux optimiser mon temps pour pouvoir savoir ce que je ne sais pas. En conséquence, j'essaie de consommer au moins un article de recherche par semaine dans un domaine pouvant contenir des centaines voire des milliers d'articles.

Dans cet article, je vous aiderai à gagner du temps en conservant l’ensemble des efforts de recherche publiés jusqu’en 2019 jusqu’à la courte liste gérable qui suit. J'ai filtré mes choix afin d'inclure les articles associés à un dépôt GitHub associé. Prendre plaisir!

Apprentissage de la représentation graphique rapide avec PyTorch Geometric

Cette recherche présente PyTorch Geometric, une bibliothèque d’apprentissage en profondeur sur des données d’entrée irrégulièrement structurées telles que les graphiques, les nuages ​​de points et les variétés, construite sur PyTorch. Outre les structures générales de données de graphes et les méthodes de traitement, il contient diverses méthodes récemment publiées dans les domaines de l'apprentissage relationnel et du traitement de données 3D. PyTorch Geometric permet d'obtenir un débit de données élevé en tirant parti de l'accélération réduite du processeur graphique, en fournissant des noyaux CUDA dédiés et en introduisant une gestion efficace des mini-lots pour des exemples d'entrée de différentes tailles. Le code est disponible sur GitHub.

[Article connexe: Documents de recherche sur la science des données les plus influents pour 2018]

Masquage du score R-CNN

Dans la tâche de segmentation d'instance, la fiabilité de la classification d'instance est utilisée comme score de qualité de masque dans la plupart des cadres de segmentation d'instance. Cet article étudie ce problème et propose le calcul du masque R-CNN, qui contient un bloc réseau pour apprendre la qualité des masques d'instance prédits. La stratégie d'évaluation du masque calibre le désalignement entre la qualité du masque et le score du masque et améliore les performances de segmentation d'instance en donnant la priorité à des prévisions de masque plus précises lors de l'évaluation de COCO AP. Le code est disponible sur GitHub.

Génération d'images haute fidélité avec moins d'étiquettes

Les modèles génératifs profonds sont en train de devenir la pierre angulaire de l'apprentissage automatique moderne. Des travaux récents sur les réseaux de confrontation générative conditionnelle (GAN) ont montré que l'apprentissage de distributions complexes et de grandes dimensions sur des images naturelles est à portée de main. Bien que les derniers modèles puissent générer des images naturelles haute résolution de haute fidélité et variées, ils reposent sur une vaste quantité de données étiquetées. Cet article montre comment tirer parti des travaux récents sur l’apprentissage auto-supervisé et semi-supervisé pour surpasser les performances de pointe (SOTA) en matière de synthèse ImageNet non supervisée ainsi que dans le cadre conditionnel. Le code est disponible sur GitHub.

GCNv2: Prévision de correspondance efficace pour le SLAM en temps réel

Cet article présente un réseau basé sur l’apprentissage en profondeur, GCNv2, permettant de générer des points clés et des descripteurs. GCNv2 est construit sur une méthode précédente, GCN, un réseau formé à la géométrie projective 3D. GCNv2 est conçu avec un vecteur de descripteur binaire en tant que fonctionnalité ORB afin de pouvoir remplacer facilement ORB dans des systèmes tels que ORB-SLAM. Le code est disponible sur GitHub.

[Article connexe: Apprendre en profondeur pour la classification de texte]

ALiPy: Apprentissage actif en Python

Les méthodes d'apprentissage automatique supervisées nécessitent généralement un grand nombre d'exemples étiquetés pour la formation de modèles. Cependant, dans de nombreuses applications réelles, il existe de nombreuses données non étiquetées mais des données étiquetées limitées; et l'acquisition d'étiquettes est coûteuse. L'apprentissage actif (AL) réduit le coût d'étiquetage en sélectionnant de manière itérative les données les plus précieuses pour interroger leurs étiquettes à partir de l'annotateur. Cet article présente une toobox ALiPy Python pour l’apprentissage actif. Le code est disponible sur GitHub.

DeepFashion2: une référence polyvalente pour la détection, l'estimation de la pose, la segmentation et la ré-identification des images de vêtements

La compréhension des images de mode a été améliorée par des points de repère avec des annotations riches, telles que DeepFashion, dont les étiquettes incluent des catégories de vêtements, des points de repère et des paires d’images grand public / grand public. Cependant, DeepFashion présente des problèmes non négligeables tels que des vêtements uniques par image, des repères clairsemés (4 à 8 uniquement) et l’absence de masques par pixel, ce qui crée un écart important par rapport aux scénarios réels. Ce document comble le vide en présentant DeepFashion2 pour résoudre ces problèmes. Il s'agit d'une référence polyvalente comprenant quatre tâches: la détection des vêtements, l'estimation de la pose, la segmentation et la récupération. Le code est disponible sur GitHub.

Le défi multi-agents de StarCraft

Au cours des dernières années, l’apprentissage en profondeur par renforcement multi-agents (RL) est devenu un domaine de recherche très actif. Une classe particulièrement difficile de problèmes dans ce domaine est l’apprentissage partiellement observable, coopératif et multi-agents, dans lequel des équipes d’agents doivent apprendre à coordonner leur comportement tout en ne conditionnant que leurs observations privées. Il s’agit d’un domaine de recherche intéressant, car de tels problèmes concernent un grand nombre de systèmes du monde réel et sont également plus faciles à évaluer que les problèmes généraux. Des environnements standardisés tels que ALE et MuJoCo ont permis à RL d'agent unique de dépasser les domaines de jouets, tels que les mondes de grille. Cependant, il n’existe pas de référence comparable pour la LR multi-agents coopérative. En conséquence, la plupart des articles dans ce domaine traitent de problèmes ponctuels concernant les jouets, ce qui rend difficile la mesure des progrès réels. Ce document propose le défi SMAC (StarCraft Multi-Agent Challenge) comme problème de référence pour combler cette lacune. Le code est disponible sur GitHub.

Le décrochage est un cas particulier de la règle du delta stochastique: un apprentissage en profondeur plus rapide et plus précis

Les réseaux de neurones multicouches ont conduit à des performances remarquables dans de nombreux types de tâches de référence en traitement de texte, de parole et d'images. On sait que l'estimation des paramètres non linéaires dans les modèles hiérarchiques est sujette à un surajustement et à une spécification erronée. Une approche de ces estimations et des problèmes associés (minima locaux, colinéarité, découverte de caractéristiques, etc.) est appelée abandon. L'algorithme de suppression supprime les unités cachées selon une variable aléatoire de Bernoulli avec une probabilité p avant chaque mise à jour, créant ainsi des «chocs» aléatoires sur le réseau dont la moyenne est calculée sur les mises à jour. Cet article montre que l'abandon scolaire est un cas particulier d'un modèle plus général publié à l'origine en 1990 et appelé la règle stochastique de Delta, ou SDR. Le code est disponible sur GitHub.

Lingvo: un framework modulaire et évolutif pour la modélisation séquence à séquence

Lingvo est un framework Tensorflow offrant une solution complète pour la recherche collaborative en apprentissage en profondeur, avec un accent particulier sur les modèles séquence à séquence. Les modèles Lingvo sont composés de blocs de construction modulaires flexibles et facilement extensibles. Les configurations d'expérimentation sont centralisées et hautement personnalisables. La formation distribuée et l'inférence quantifiée sont prises en charge directement dans le cadre. Il contient les implémentations existantes d'un grand nombre d'utilitaires, de fonctions d'assistance et des dernières idées de recherche. Lingvo a été utilisé en collaboration par des dizaines de chercheurs dans plus de 20 articles au cours des deux dernières années. Ce document décrit la conception sous-jacente de Lingvo et sert d’introduction aux divers éléments du cadre, tout en offrant des exemples de fonctionnalités avancées illustrant les fonctionnalités du cadre. Le code est disponible sur GitHub.

Méthodes de dégradé adaptatif avec liaison dynamique du taux d'apprentissage

Des méthodes d'optimisation adaptative telles qu'AdaGrad, RMSProp et Adam ont été proposées pour réaliser un processus de formation rapide avec un terme d'échelle élément par élément sur les vitesses d'apprentissage. Bien que dominants, on constate qu'ils se généralisent mal comparés à SGD ou même ne convergent pas en raison de vitesses d'apprentissage instables et extrêmes. Cet article démontre que des taux d’apprentissage extrêmes peuvent conduire à des performances médiocres. De nouvelles variantes d'Adam et d'AMSGrad, appelées respectivement AdaBound et AMSBound, emploient des limites dynamiques sur les vitesses d'apprentissage pour permettre une transition progressive et en douceur des méthodes adaptatives vers SGD et offrent une preuve théorique de la convergence. D'autres expériences ont été menées sur diverses tâches et modèles populaires. Les résultats expérimentaux montrent que les nouvelles variantes peuvent éliminer l’écart de généralisation entre les méthodes d’adaptation et SGD et maintenir une vitesse d’apprentissage plus rapide au début de la formation. Le code est disponible sur GitHub.

Note de la rédaction: vous souhaitez en savoir plus sur l’apprentissage en profondeur en personne? Assistez à ODSC East 2019 du 30 avril au 3 mai à Boston et obtenez directement les conseils de spécialistes!

Lisez plus d'articles de science des données sur OpenDataScience.com, y compris des tutoriels et des guides du niveau débutant au niveau avancé! Abonnez-vous à notre lettre d'information hebdomadaire ici et recevez les dernières nouvelles tous les jeudis.