Qu'est-ce que l'industrie manufacturière et les neurosciences ont en commun? Data Scientist explique

C'est maintenant le moment où l'apprentissage automatique moderne transforme de nombreuses entreprises (voir ce rapport de MIT Sloan Management Review).
Chez Dataswati, nous contribuons à cette transformation en œuvrant pour une fabrication optimisée en intelligence artificielle et en réduisant sa dépendance à l’égard des ingénieurs. Ce qui suit est l'histoire de l'application de la science des données et de l'apprentissage automatique aux neurosciences (le sujet de mon doctorat) avec quelques leçons pour la fabrication à la fin. Continuer à lire.

Longue histoire courte

Les neurones du cerveau communiquent avec des séquences d'événements d'activation rapide appelées pointes. Avec mes co-auteurs du groupe de théorie des neurones de l'École Normale Supérieure (ENS), Ivan Lazarevich et Boris Gutkin, nous avons été surpris que le problème de la classification de ces séquences de pointes (le code de pic) de neurones individuels n'ait pas été abordé comme un pur problème. problème de science des données. Pas jusqu'à maintenant.

Dans notre récent article, nous avons mis au point plusieurs approches d'exploration de données sur l'activité d'un neurone pour résoudre divers problèmes de classification.

Contexte

Pour être juste, la science des données et les méthodes d’apprentissage automatique ne sont pas étrangères aux neurosciences. Ils sont activement utilisés pour l'analyse des enregistrements au niveau du cerveau entier (par exemple, données IRMf, EEG, MEG). Ce type de données a été mis à l'honneur parce que l'activité coordonnée des populations neuronales est supposée orchestrer des états globaux du cerveau, par exemple différentes phases d'apprentissage, phases de sommeil, états de repos éveillés, états induits par la maladie ou normaux. Cependant, l'activité d'un seul neurone n'a jamais été considérée comme un prédicteur de ces états globaux.

Pourquoi la classification des états globaux du cerveau basée sur l'activité d'un seul neurone est-elle un problème important? Plusieurs raisons: i) si elle est résolue, elle pourrait réduire considérablement la quantité de données nécessaire pour ces tâches de classification (données sur un seul neurone par rapport à la population), ii) elle permet de quantifier la quantité d'informations prédictives contenues dans le code de dopage de neurone individuel.

Ce qui suit est notre solution au problème du décodage de l’activité d’un neurone pour la classification de l’état du cerveau.

Une approche de base

Pour notre approche de base, nous avons d’abord développé plusieurs représentations efficaces de séries chronologiques d’activités de dopage neuronales et avons utilisé des méthodes k-plus proches voisins (kNN) avec une gamme de métriques de distance, y compris celles non standard pour l’analyse de données neuroscientifiques.
Pour certains problèmes tels que la classification des types de neurones en fonction de leur activité, nous avons constaté que les mesures de similarité de séquence de pics parfois utilisées en neuroscience étaient surpassées par des mesures non triviales que nous avons appliquées, telles que les distances de Kolmogorov – Smirnov ou de Wasserstein. Pour en savoir plus sur ces types de métriques de distance, consultez https://statweb.stanford.edu/~souravc/Lecture2.pdf.

Et si, au lieu de méthodes de base naïves, nous utilisons des méthodes plus avancées?

Le grand avantage des méthodes d’apprentissage automatique modernes par rapport aux méthodes classiques d’analyse de données réside dans leur plus grande flexibilité: nous pouvons réduire considérablement (voire éliminer) l’ingénierie manuelle métrique / métrique et éliminer les biais humains.

Nous avons donc extrait une série de caractéristiques (propriétés) de séries chronologiques de pics neuronaux de manière automatique et utilisé divers modèles d’apprentissage automatique, chacun d’eux étant capable d’apprendre différents types de dépendances entrée-sortie et d’extraire différents types d’informations. Nous avons essayé kNN, régression logistique avec différents types de régularisation, forêts aléatoires et arbres extrêmement randomisés, arbres de décision optimisés en gradient (GBM), SAX-VSM, BOSSVS, et enfin, nous avons utilisé le montage de modèles (empilement et mélange) pour obtenir les meilleurs résultats d'un tas de modèles différents.

Nous avons constaté que les approches d’apprentissage automatique contemporaines telles que les arbres de décision optimisés par gradient (implémentation de xgboost) formées sur de nombreuses fonctionnalités dépassaient nos performances de base. De plus, en combinant différentes méthodes, nous avons pu renforcer ces résultats. Nous appliquons actuellement les approches d’apprentissage en profondeur les plus récentes et nous quantifions davantage les informations prédictives contenues dans l’activité de neurones individuels.

Conclusion

En bref, ce qui est bon pour le code neuronal l'est également pour une gamme de systèmes différents, par exemple pour des processus industriels complexes. Dans notre travail quotidien à Dataswati, nous observons le même modèle à maintes reprises: les approches naïves classiques de l’analyse de données chronologiques sont souvent surperformées par l’apprentissage automatique de pointe qui capture efficacement les modèles temporels complexes les données.

Pour lire l'histoire complète, cliquez ici.