Apprendre à se souvenir: un cadre axé sur la plasticité synaptique pour un apprentissage continu

Oleksiy Ostapenko, Tassilo Klein et Moin Nabi (Recherche ML)

Les humains ont une capacité extraordinaire d'apprendre continuellement tout au long de leur vie. La capacité d'appliquer les connaissances acquises précédemment à de nouvelles situations, environnements et tâches constitue la caractéristique clé de l'intelligence humaine. Sur le plan biologique, cela est généralement attribué à la capacité de stocker et de gérer de manière sélective les mémoires sur une période suffisamment longue dans des connexions neuronales appelées synapses. Contrairement aux cerveaux biologiques, les réseaux de neurones artificiels (RNA) ne possèdent pas la capacité de contrôler la force des connexions synaptiques entre les neurones. Cela conduit à des durées de mémoire extrêmement courtes dans les ANN - effet connu sous le nom d'oubli catastrophique.

Au cours des dix dernières années, la plupart des recherches dans le domaine de l'intelligence artificielle (IA) ont été axées sur le dépassement des performances humaines sur des tâches isolées et clairement définies telles que jouer à des jeux sur ordinateur, trier les spams, classer les chats parmi les chiens et reconnaître pour en nommer quelques uns. En conséquence, la plupart des IA qui nous entourent dans notre vie quotidienne peuvent être qualifiées d'intelligence étroite artificielle ou d'intelligence faible. L'IA forte, en revanche, fait référence à une intelligence artificielle capable d'exécuter n'importe quelle tâche intelligente, tout en étant capable d'apprendre en permanence, d'oubli sélectif, tout en s'adaptant rapidement à de nouvelles tâches et en utilisant les expériences précédentes. Ce n’est que récemment que ces propriétés ont commencé à retenir l’attention des chercheurs en intelligence artificielle.

Pourquoi apprendre continuellement? La clé de scénarios en constante évolution

L'oubli et le manque de transfert de connaissances constituent l'un des principaux défis sur la voie allant d'une IA faible à une IA forte. Contrairement aux humains, qui oublient sélectivement, les machines oublient catastrophiquement. En conséquence, pendant qu'un "bébé apprend à ramper, à marcher puis à courir" (~ Dave Waters), AI oublie complètement de ramper une fois qu'il a appris à marcher et il oublie de marcher une fois qu'il a appris à courir. Avant d'examiner les solutions possibles au défi de l'apprentissage continu tout au long de la vie, considérons un exemple simple de recherche de catalogue de vêtements basée sur l'IA.

Un modèle d’apprentissage automatique formé sur un jeu de données contenant des vêtements de la saison (A) serait extrêmement efficace lorsqu’il effectuait une recherche parmi les produits de cette saison (A). Cependant, une fois que la saison change, les tendances de la mode peuvent également changer. Lorsque les tendances de la mode changent, de nouvelles catégories de produits, de nouveaux modèles et styles peuvent être ajoutés au catalogue (par exemple, des talons hauts au lieu de baskets, des vestes longues au lieu de vestes courtes, etc.). Le modèle entraîné sur les données de la première saison (A) ne fonctionnerait pas correctement lors de la recherche d'éléments ajoutés dans la nouvelle saison. En fait, le simple fait d’entraîner notre modèle sur les données de la nouvelle saison conduirait à oublier de façon catastrophique la possibilité de rechercher parmi les éléments de la saison précédente.

Un moyen courant de résoudre l'oubli?

L'une des premières techniques permettant d'atténuer l'oubli catastrophique dans les ANN est connue sous le nom de répétition d'expérience ou de «répétition». Poursuivant notre exemple de recherche dans le catalogue, afin de conserver les informations acquises au cours de la première saison, le modèle d’apprentissage automatique est simplement reconverti à partir de rien sur le mélange de données des deux saisons. les données de la nouvelle saison. De manière générale, le recyclage du modèle à chaque fois que les distributions de données «changent» entraînerait une explosion des coûts de stockage de données et des efforts nécessaires pour maintenir des systèmes intelligents, sans parler de la réduction spectaculaire de l'évolutivité du système. Enfin, le stockage de données brutes de tâches précédentes peut largement enfreindre les exigences de confidentialité des données de l'application réelle.

Dans ce contexte, de nombreux chercheurs se sont concentrés sur la simulation de la plasticité neuronale dans les RNA et atténuaient ainsi la nécessité de stocker des données brutes (1,2,3,4,5,6). Cela se fait généralement dans la configuration dite «incrémentielle de tâches», où chaque bloc de données nouvellement ajouté est considéré comme une tâche distincte et où les informations concernant le libellé de la tâche sont supposées disponibles au moment du test. Pour revenir à l'exemple de recherche dans le catalogue, il faudrait que les informations concernant l'étiquette de saison (étiquette de tâche) soient incluses dans chaque requête; par conséquent, la classification d'un vêtement donné nécessiterait une information a priori sur la saison à laquelle il appartient (étiquette de tâche). Avoir une telle "étiquette de tâche" réduirait automatiquement la sortie du modèle aux classes appartenant à la tâche assumée. Ainsi, dans notre exemple ci-dessus, cela limiterait le modèle à la saison en question. Ces hypothèses peuvent rarement être remplies dans des applications réelles.

Une ligne de travail séparée aborde un scénario plus réaliste. Dans ce scénario «incrémental de classe», la sortie de classification du modèle est étendue en permanence à mesure que de nouvelles classes sont apprises. Dans ce contexte, une stratégie commune consiste à introduire un composant dit de mémoire générative (par exemple 7,8,9). Ici, au lieu de stocker les données brutes, un modèle génératif tel que GAN ou VAE (voir article précédent) est formé pour générer de l'expérience à reproduire. Par conséquent, dans l'exemple de catalogue, les éléments (avec la classe correspondante) de la première saison seraient générés et réexécutés dans le modèle.

Les approches de mémoire générative existantes reposent principalement sur l'idée d'une répétition générative profonde dans laquelle le modèle génératif est recyclé de manière répétée sur le mélange de données réelles actuellement disponibles (nouvelle saison) et des épisodes de répétition synthétisés par le générateur précédent (saison précédente). Cependant, en plus d’être très inefficaces dans l’entraînement, ces approches sont gravement sujettes à un effet appelé «dérive sémantique». La «dérive sémantique» fait référence à la qualité des images générées à chaque relecture de la mémoire en fonction des images générées précédemment, ce qui entraîne une susceptibilité à la propagation des erreurs et entraîne ainsi une perte de qualité et un oubli.

Solution proposée - Apprentissage de la plasticité dans un réseau de mémoire générative

Jusqu'à présent, nous avons appris que la relecture d'expérience est une stratégie simple et utile pour surmonter l'oubli dans les RNA en général, et en particulier dans la situation difficile «incrémentée par classe». Cependant, cette stratégie n’est applicable que lorsque les épisodes de relecture ne sont pas conservés sous forme de données brutes, mais sous la forme de modèles de mémoire pertinents et efficacement stockés.

Pour remédier à cela, dans notre travail récent, nous avons proposé une méthode appelée mémoire générative dynamique (DGM) - un cadre d'apprentissage continu formable de bout en bout simulant la plasticité synaptique à l'aide de gabarits mémorisables appliqués aux paramètres d'un réseau génératif (GAN). . Le masquage de l’attention permanente identifie les segments de réseau essentiels pour la mémorisation des informations acquises et empêche leur mise à jour lors des apprentissages futurs. Le réseau est en outre incité à réutiliser les connaissances précédemment acquises, qui ont été stockées dans de tels segments de réseau «réservés», ce qui permet un transfert de connaissances positif. Ainsi, dans notre exemple de catalogue de produits, la connaissance des articles du catalogue de la saison précédente pourrait être efficacement réutilisée lors de l’apprentissage des articles de la nouvelle saison. Globalement, DGM peut apprendre de nouvelles tâches sans avoir à reproduire les anciennes connaissances, améliorant ainsi l'efficacité de la formation et devenant plus robuste face à un oubli catastrophique.

Par conséquent, DGM peut générer des échantillons informatifs et diversifiés de catégories précédemment apprises à n'importe quelle étape de l'apprentissage continu, comme illustré dans l'image ci-dessous. En rejouant ces exemples dans le modèle de résolution de tâches (D), vous obtenez un modèle capable de conserver des performances de classification élevées pour toutes les classes observées au cours du processus d'apprentissage continu.

Sur l'évolutivité

Compte tenu de la taille limitée du réseau, il est inévitable qu'avec un nombre croissant de tâches à apprendre, la capacité du modèle soit épuisée à un moment donné. Ce problème est aggravé lors de la simulation de la plasticité neuronale avec masquage de l’attention au niveau des paramètres. Afin de garantir une capacité suffisante et une puissance d'expression constante du réseau sous-jacent, DGM maintient constant le nombre de paramètres «libres» (c'est-à-dire une fois pouvant être mis à jour efficacement) en développant le réseau avec exactement le nombre de paramètres réservés pour le précédent. tâche. L’idée principale ici est qu’avec un transfert de connaissances positif (c’est-à-dire la possibilité de réutiliser des paramètres), le nombre de réservations de paramètres pour les nouvelles tâches devrait diminuer avec le temps et la croissance du réseau devrait saturer à un moment donné.

Pour plus de détails techniques sur la méthode DGM, veuillez vous reporter au document complet sur arXiv.

Même s'il est encore loin de résoudre entièrement le problème de l'oubli catastrophique, et malgré plusieurs limitations, DGM démontre une croissance efficace du réseau et sa robustesse face à l'oubli catastrophique dans une configuration «incrémentielle de classe» difficile. Nous pensons que la recherche présentée peut nous aider à approfondir notre compréhension de l’apprentissage continu - une capacité essentielle pour parvenir à une forte IA, capable d’apprendre (et d’oublier) de manière adaptative et progressive au fil du temps.

Notre travail sur l'apprentissage tout au long de la vie est présenté à la CVPR 2019.

À propos de l'auteur: Oleksiy Ostapenko, ingénieur de recherche associé au sein de l'équipe de recherche sur l'apprentissage automatique de SAP, travaille sur les défis de l'apprentissage continu tout au long de la vie, abordés dans ce billet dans son article qui sera présenté lors du CVPR de cette année.