Distillerie IA (1ère partie): Une vue à vol d'oiseau de la recherche sur l'IA

Différentes lentilles pour voir à travers l'IA; motivations et introduction à notre application web

Remarque: si vous voulez des robots chez vous et que vous souhaitez que cela se produise plus tôt que prévu, veuillez répondre à notre très bref sondage. Vos réponses aident à orienter nos projets de recherche et de robotique en environnement simulé

Donnez 3 minutes de votre temps: https://forms.gle/hPiP1p3sJ734Hzk19
Merci de bien vouloir!

Chez MTank, nous visons deux objectifs. (1) Modéliser et distiller les connaissances au sein de l'IA. (2) Avancer dans la création de machines vraiment intelligentes. Dans le cadre de ces efforts, nous publions des articles sur notre travail pour que les gens puissent en profiter et en tirer des leçons. Si vous aimez notre travail, montrez votre soutien en suivant, partageant et applaudissant. Merci d'avance!

  • Partie 1: Un aperçu de la recherche sur l’IA
  • Partie 2: Distillation par incorporation

Qu'est-ce que c'est et pourquoi l'avez-vous fait?

Bienvenue dans notre premier volet du projet AI Distillery, où notre équipe de MTank, frustrée par le volume de recherches en intelligence artificielle dans le monde, tente de pirater une solution à notre pile de papiers non lus qui montent chaque jour. Dans notre précédent blog Vision, nous décrivions de manière ludique et précise le volume de publications de recherche sur l'IA dans le monde entier comme un feu de joie - un volume incroyablement élevé, mais un support empêchant de se désaltérer correctement. Nous avons donc décidé d’essayer d’aider cette force à mieux comprendre l’intelligence artificielle et divers domaines connexes.

Pourquoi demandes-tu? Tout d’abord, nous avons pensé que c’était un problème intéressant. Deuxièmement, nous avons entendu (et assorti) les pleurs torturés des chercheurs affolés par leur incapacité à suivre le rythme du progrès, même dans le sous-sous-champ le plus ésotérique de l'IA. Souvent, un chercheur doit partager son temps entre lecture, codage, administration, enseignement, etc. Et parfois, quand il est nécessaire d’écrire un article avant la date limite, les auteurs reconnaissent avec culpabilité qu’ils ne lisent aucun nouvel article pendant un temps pendant qu'ils se préparent pour leur soumission.

Dans une large mesure, les connaissances scientifiques sont diffusées sous un format principal: les articles scientifiques. Plus récemment, les référentiels publics en ligne qui permettent la citation, comme ArXiv, sont devenus une méthode largement adoptée pour publier rapidement du contenu scientifique (voir le tweet de Yann LeCun). Les communications restent dominantes dans la manière dont nous transférons les connaissances au sein de la science, un paradigme qui doit encore changer de manière significative. Ces articles sont acceptés dans les revues et les conférences, ou simplement populaires dans les médias sociaux. À l’heure actuelle, ArXiv est l’endroit où la majorité des articles les plus importants au sein d’IA apparaissent bien avant l’évaluation par les pairs.
En une phrase, notre objectif est de:
Modéliser et distiller automatiquement les connaissances dans l'IA

Cet objectif est vaste, vague et parfait pour le type de travail que nous aimerions accomplir au cours des prochaines années. Bien entendu, cela inclut le travail que nous avons effectué manuellement dans nos deux publications précédentes: Une année en vision par ordinateur et les méthodes multimodales. Des publications qui, tout en écrivant, nous ont fait bousculer pour essayer d'ajouter les meilleurs et les plus récents articles sur l'état de l'art (SOTA) dans ces sous-domaines, jusqu'à ce que nous réalisions à quel point c'était futile.

Le monstre imminent de l'IA-progrès progresse sans relâche alors que nous tentions désespérément de digérer, de quantifier et d'écrire sur ses aventures. Pour AI Distillery, toutefois, l’objectif est d’élargir notre approche et d’aborder la recherche sous un autre angle. Nous attirons automatiquement votre attention sur le mot.

Peut-être qu'il est temps d'appliquer l'IA à l'IA et d'automatiser la curation et la synthèse des connaissances sur le terrain? Nous savons qu'il existe de nombreuses ressources formidables dédiées à la recherche sur l'IA, par exemple distill.pub, mais la compilation, l'édition et la création de telles ressources prennent beaucoup de temps. Existe-t-il un autre moyen de créer des informations de manière quasi passive?
Le domaine de la science des réseaux est plutôt dédié à l’étude et à la recherche de relations au sein de grands réseaux de citations. Arxiv-sanity, l'une de nos plus grandes inspirations, aide grandement les gens à rechercher enfin les papiers qu'ils recherchent ou à recommander. C’est une vérification de la capacité de recherche et de l’automatisation.

Mais nous nous intéressons au jeu de la méta-recherche - que peut nous dire notre recherche elle-même sur la recherche en IA? Où se dirige toute cette ferveur universitaire, de startups et d’industries? Quels domaines collaborent le plus? Quoi de neuf à l’heure actuelle, et quoi de neuf dans le monde de la recherche?

Nous ne le savons pas encore, mais suivez-nous et peut-être que nous le découvrirons ensemble.

Le problème du point de vue de la recherche d'information (IR)

Différentes situations nécessitent différentes méthodes pour récupérer des informations. Il est difficile de mener une recherche exploratoire dans les systèmes IR standard, car la terminologie peut différer même dans des domaines étroitement liés (analyses de réseau vs réseaux de neurones graphiques). Comment trouver des expressions similaires sans savoir ce que vous recherchez? Comment trouver des papiers liés à votre nouvelle idée dans la forêt de papiers GAN?

Le traitement moderne du langage naturel a fourni des outils pour effectuer ce type de recherche exploratoire. Il suffit de les appliquer aux données provenant de sources précieuses, telles que ArXiv. En conséquence, nous visons à fournir les informations les plus pertinentes et les plus significatives aussi rapidement et aussi précisément que possible. De cette manière, les chercheurs et les praticiens seraient soulagés de la «technique de requêtes» lourde pour trouver les informations dont ils ont besoin dans la grande réserve de documents.

Fabriquer un jeu de données

Nombre d'articles ajoutés à ArXiv par mois depuis 2014. En 2018, plus de 1 000 articles ont été publiés sur ArXiv par mois dans les domaines susmentionnés. Tous les mois sauf janvier. Plus de 2000 articles ont été publiés en novembre.

Comme point de départ pour notre objectif ambitieux, nous avons utilisé la base de code arxiv-sanity (créée par Andrej Karpathy) pour collecter environ 50 000 articles issus de l'API ArXiv publiée à partir de 2014 et qui appartenaient au domaine de cs. [CV | CL | LG | AI | NE] ou stat.ML. Nos félicitations pour ces deux systèmes, en tant que ressources incroyables à source ouverte, nous amènent à un point où tout le monde peut accéder à ces connaissances. Cependant, au moins une petite externalité est apparue:

Comment pouvons-nous trouver ce dont nous avons besoin s'il y a tant de [foutus] papiers?

Eh bien, il existe peut-être un moyen de visualiser les documents, anciens et nouveaux, dans le contexte de la recherche qui les entoure. C’est-à-dire non seulement le sous-champ lui-même, mais aussi les divers sites de nidification qu’il habite. L’exploration devient plus facile, la découverte et la navigation sont aidées, de manière inhabituelle, en sachant d’abord où se trouvent les papiers et les connaissances et ce qui vous entoure.

Purifier le corpus textuel

Les ~ 50000 papiers ont été décomposés à l’aide de pdf2text. Nous avons supprimé les mots vides (par exemple «a», «le», «de») et les jetons qui apparaissent sous un nombre de fois minimal (par exemple 5 ou 30 - différent pour chaque méthode). Les bigrammes communs («deep_learning») et les trigrammes («convolutional_neural_networks») sont ce pour quoi nous aimerions apprendre les imbrications, mais il existe un problème dû à l’explosion combinatoire lors de la création de n-grammes.

En termes simples, nous aimerions éviter d’apprendre les techniques d’embeddage pour les bi-grammes tels que «and_the» et «this_paper», dont il existe des milliers. Parce que, plus simplement encore, ils ne fournissent aucune valeur dans le contexte de la recherche sur l'IA. Ils représentent la langue vernaculaire des papiers en général.
Au lieu de cela, nous avons défini manuellement l’important ensemble de concepts à partir du plus grand ensemble de n-grammes les plus courants - «réseaux de neurones récurrents», «machine à vecteurs de support», etc. En guise de première approche, nous trouvons ces concepts dans le texte et les remplaçons. avec des jetons de concepts (convolutional_neural_networks, support_vector_machine).

AI Distillery: une application Web pour explorer la recherche sur l'IA

Nous avons créé une application Web, disponible via ai-distillery.io. C'est à cet endroit que nous montrerons la majorité de nos résultats, outils, widgets, idées, graphiques et plus encore. En utilisant l’application Web, il est possible d’exploiter certains de nos modèles formés sur les jeux de données que nous avons collectés, tout en permettant à tout un chacun d’explorer des concepts connexes, de rechercher des documents similaires ou d’avoir un aperçu de chacun d’eux, ainsi que des tendances et de suivre leur évolution. Au total, il y a actuellement 6 pages disponibles et nous prévoyons de le mettre à jour au cours des prochains mois. Ceux-ci sont:

Recherche de papier (distillerie AI)

Paper Search: fonctionnalité similaire à arxiv-sanity-preserver mais nous utilisons la bibliothèque de recherche Whoosh pour plus de flexibilité et d’évolutivité. Jetez une requête et trouvez les articles les plus pertinents pour cette requête.

Proximité du papier (distillerie IA)

Proximité par incorporation de mots: recherchez des mots sémantiquement similaires, par exemple. "CNN" est proche de "convnet" et "RNN" est proche de "LSTM"

Intégration du papier à proximité: recherchez des papiers similaires, par exemple. Le papier «AlexNet» peut être proche du papier «GoogLeNet» ou plus généralement, les papiers d'un même domaine ont tendance à être plus proches que ceux de champs distincts.

Intégration de visualisations (AI Distillery)

Incorporation de mots Visualisation: graphique 2D T-SNE montrant quels mots sont proches les uns des autres dans l'espace d'insertion avec les méthodes d'intégration de mots: Word2vec et fastText

Visualisation de l’incorporation de papier: Un autre graphique T-SNE mais pour visualiser l’espace d’incorporation de papier lui-même et avec nos deux méthodes d’incorporation choisies étant LSA et doc2vec.

Graphiques et informations supplémentaires: les graphiques et les analyses que nous trouvons intéressants et que nous avons créés tout au long de notre parcours, par exemple. principaux auteurs, principaux articles, nombre d'articles publiés par mois, etc.
Voici un exemple de graphiques et d'informations que notre système peut générer automatiquement à partir d'un corpus de papier ArXiv. La présence de «GAN» dans les articles au fil du temps, le sujet le plus publié, les auteurs les plus cités, etc.

La rafle

Nous utilisons nos meilleures armes pour apprivoiser la bête du progrès de l'IA, c'est-à-dire avec Flask, ReactJS, D3.js, ChartJS et Whoosh. Nous avons eu un voyage amusant en passant de Heroku (trop peu de RAM) à Google Compute Engine (trop cher pour trop peu de RAM), avant d’héberger enfin la version actuelle de l’application avec Hertzner.

AI Distillery a débuté avec deux méthodes d ’« incorporation sur papier », l’Analyse sémantique latente (LSA) et doc2vec - ainsi que des algorithmes d’incorporation à deux mots, word2vec et fastText. Dans notre prochain article, nous guiderons les lecteurs à travers ces intégrations, ainsi que chacune des pages que nous avons créées. Pour l'instant, n'hésitez pas à explorer le site (ai-distillery.io). Vous pouvez trouver notre code d’expérience dans le dépôt AI Distillery GitHub où nous avons utilisé des cadres tels que gensim, sklearn et spacy pour réaliser certaines de ces tâches.

Comme toujours, merci d'avoir pris le temps de lire notre travail. Et aimez, applaudissez et partagez le travail de MTank avec tous ceux qui, à votre avis, pourraient l’aimer. Votre soutien nous maintient tous motivés à essayer de nouvelles choses et à apporter nos deux sous à la communauté de l'IA. Donc, dans ce cas, ne retenez pas vos applaudissements si vous aimez ce que nous faisons!

Si vous souhaitez collaborer avec nous dans notre aventure effrénée visant à améliorer la transparence de la progression de l'intelligence artificielle ou si vous avez des commentaires à propos de quelque partie que ce soit de notre recherche ou de notre application Web, nous sommes ouverts à toute suggestion. par courrier électronique (info@themtank.com). Gardez un œil sur la partie 2 de cette série qui va bientôt sortir et sur le début de la nouvelle série de blogs que nous avons mentionnée dans notre blog Vision (Des tasses à la conscience).