Apprentissage collaboratif homme-machine

Vadim Tschernezki, Moin Nabi et Tassilo Klein (ML Research Berlin)

Nous sommes entrés dans une nouvelle ère, où nous constatons une amélioration constante et marquée de la puissance de calcul, du stockage et de la disponibilité du Big Data. L’apprentissage en profondeur s’est révélé être la technique idéale pour tirer parti de ces tendances et s’affirmer comme un standard de facto en matière d’apprentissage supervisé. Cependant, ce type d'apprentissage nécessite que les données soient étiquetées, ce qui entraîne généralement des coûts considérables en termes de conservation des données. Par conséquent, d’autres paradigmes émergents permettent de maximiser le potentiel de vastes quantités d’informations d’une manière nouvelle et distincte. Dans ce blog-post, nous présentons un concept qui combine les forces des humains et des machines de manière collaborative. Mais avant d’entrer dans les détails, commençons par une histoire démontrant les avantages de cette approche.

En 1997, Garry Kasparov a été battu par un superordinateur (Deep Blue) lors d’un match d’échecs régi par un tournoi. C'était un événement marquant, où un champion du monde en titre d'échecs a été vaincu par une machine. Alors que Kasparov se remettait encore de cette expérience, il s’inspirait également de Deep Blue. "Et si je pouvais jouer contre un ordinateur - avec un autre ordinateur à mes côtés - combinant nos forces, notre intuition humaine et le calcul de la machine, notre stratégie humaine, la tactique de la machine, l'expérience humaine, la mémoire de la machine?"

L’idée de Kasparov d’une collaboration homme-machine aux échecs a été concrétisée avec succès en 2005 dans le cadre d’un tournoi d’échecs en ligne assisté par ordinateur, au cours duquel les grands maîtres se sont associés à des supercalculateurs. Le résultat était assez inattendu: les gagnants étaient une paire de joueurs d'échecs américains amateurs utilisant simultanément trois PC ordinaires. Apparemment, dans ce cas, la capacité des joueurs à guider les ordinateurs a joué un rôle très important. Cela soulève la question de savoir si ce type de collaboration peut également être utilisé pour d'autres tâches. Les paragraphes suivants éclaireront les approches émergentes dans ce contexte.

Approches et tendances

Les machines en tant que collègues, pas seulement les outils

Lorsque l'on compare les humains et les machines, il est évident que les deux côtés ont des caractéristiques et des forces très uniques. Les humains sont doués pour prendre des décisions intuitives et créatives en fonction de leurs connaissances. Les ordinateurs sont capables de traiter de grandes quantités de données pour produire des informations condensées et significatives permettant de tirer de nouvelles connaissances et de prendre de meilleures décisions. Capitaliser sur la synergie de ces atouts distinctifs semble être une prochaine étape naturelle.

En recherche, de telles combinaisons ont été explorées plus en profondeur au cours des dernières années et connaissent progressivement plus d'élan. Une approche a été proposée par Mintz et al. utiliser des données non étiquetées pour améliorer les modèles d'extraction de relations grâce à la supervision à distance. Ils utilisent notamment une base de données choisie par l'homme pour concevoir une fonction d'étiquetage heuristique et l'intégrer dans la procédure d'apprentissage d'un classificateur. Le classificateur est alors capable d'extraire des modèles de haute précision pour un nombre raisonnablement grand de relations. Étant donné que les chercheurs ont conçu une fonction d’étiquetage qui se rapproche du comportement d’un annotateur humain en matière d’étiquetage, la supervision est alors «distante».

Une autre technique, développée par Wang et al. dans le domaine de la vision par ordinateur, améliore la détection d'objet à partir d'images non étiquetées grâce à l'extraction d'échantillons auto-supervisée. Une partie importante de cette méthode est basée sur la découverte et le pseudo-étiquetage automatiques de propositions de régions fiables pour améliorer le détecteur d'objet. Ceci est réalisé en collant ces propositions dans différentes images étiquetées pour évaluer de manière exhaustive leurs valeurs de cohérence dans différents contextes d'image. Bien que ces images soient pseudo-étiquetées, elles contribuent efficacement à améliorer la précision de la détection et la robustesse contre les échantillons bruyants. Finalement, les deux approches décrites annotent automatiquement les données non étiquetées et diminuent ainsi la quantité de supervision humaine dans le processus de formation.

Incorporer l'orientation humaine dans l'apprentissage actif

Par rapport au concept précédent, où l'ensemble de données était étendu par des données annotées par machine, nous pouvions également laisser l'apprenant sélectionner des échantillons difficiles et demander à un formateur humain de les annoter, d'où le nom d'apprentissage actif. La méthode s'avère très efficace, en particulier dans les cas de budget limité pour la formation des échantillons - les experts peuvent se concentrer sur les cas difficiles, tandis que la machine prend en charge la majorité des échantillons généralement faciles à résoudre.

Pour expliquer l'intuition qui se cache derrière l'apprentissage actif, considérons la tâche simple qui consiste à étiqueter les images de chiens par rapport aux races. Nous commençons avec un jeu de données de base contenant des images étiquetées de chiens. Cet ensemble de données peut constituer un défi pour la formation de plusieurs manières: Il peut contenir principalement des images de chiens faisant face à la caméra, rendant ainsi un modèle entraîné invariant pour les chiens affichés de côté. Il peut également contenir une quantité déséquilibrée d’échantillons pour chaque race. Ou bien, il pourrait contenir des races similaires, comme le malinois belge et le berger allemand. Dans de tels cas, les humains et les machines auraient besoin de plus d'exemples de chaque race pour apprendre à classer correctement les chiens. L'apprentissage actif aide à résoudre des problèmes de ce genre.

Imaginez que nous serions en mesure d’atteindre une précision de 80% avec un modèle formé sur un certain jeu de données de base. Nous avons un budget pour étiqueter jusqu’à 100 nouvelles images sur 1000 images non étiquetées et nous voulons utiliser ce budget à bon escient, car le support d’un expert pour l’étiquetage est coûteux. Par conséquent, au lieu de choisir 100 échantillons au hasard, nous devrions plutôt laisser notre apprenant à la machine choisir les échantillons les plus difficiles ou ceux qui capturent le mieux la distribution de données sous-jacente et minimisent la redondance. Nous avons laissé le modèle suggérer ces 100 échantillons à l'expert en étiquetage, auquel il attribuerait des étiquettes avec une confiance faible ou une grande incertitude. De cette façon, la précision de notre apprenant en machine pourrait augmenter à 95% après la formation, au lieu de 90% dans une configuration dans laquelle des échantillons étiquetés de manière aléatoire ont été utilisés. Alternativement, nous pourrions également simplement réduire la quantité de données étiquetées et ainsi former un modèle avec la même précision de 90% mais des coûts moindres.

Formation contradictoire: combiner le meilleur des deux

Pour combiner l'apprentissage actif et l'amélioration progressive de l'étiquetage automatique, nous avons besoin d'un apprenant en machine composé de deux modèles. Premièrement, un modèle discriminant pour mesurer l’incertitude concernant la précision de la prédiction pour des échantillons donnés (apprentissage actif) et deuxièmement, un modèle génératif pour la prédiction de la pseudo-vérité de la terre pour les échantillons (étiquetage automatique). Pour accroître l’efficacité de la formation des apprenants, nous visons à optimiser conjointement les deux modèles grâce à une formation contradictoire. De cette manière, le modèle discriminant peut également être utilisé pour attribuer des incertitudes aux prédictions du modèle génératif et augmenter ainsi la précision des prédictions. Un modèle à la pointe de la technologie, qui a acquis une solide réputation dans la communauté de la recherche et satisfait aux exigences énoncées, est appelé Generative Adversarial Network (GAN).

Apprentissage collaboratif homme-machine avec les GAN

Considérant le cadre présenté dans la figure ci-dessus, nous utilisons d’abord le générateur (G) pour prédire une pseudo-vérité de sol pour des données non annotées. Puisque le discriminateur (D) est capable d’attribuer des incertitudes non seulement à la réalité du terrain mais également à celle prédite par G, nous pouvons trier les échantillons non étiquetés par difficulté ou incertitude de D. Nous définissons des échantillons dont la distribution n’a pas été entièrement capturée par la modèle encore aussi difficile et laissez D les suggérer à l'annotateur humain. Nous utilisons les autres échantillons faciles avec une faible incertitude pour produire des données annotées automatiquement avec G. L’aide humaine donne un D plus fort, adapté aux exigences de la tâche spécifiée par l’enseignant (apprentissage actif). À son tour, le D amélioré permettra à G de prédire une pseudo-vérité de sol de meilleure qualité (annotation automatique). Grâce à cette amélioration itérative, les GAN représentent un cadre naturel pour combiner l'homme et la machine en une procédure de formation conjointement optimisée.

Alors que la science-fiction regorge de machines et de robots qui menacent l’humanité et créent ainsi un climat de suspicion, le concept d’apprentissage collaboratif avec une formation contradictoire montre comment les machines peuvent raisonnablement compléter notre travail et notre vie de manière positive. En fait, l'approche décrite présente un fort potentiel pour transformer une multitude d'applications, par exemple dans le secteur de la santé. En particulier, notre équipe développe actuellement une approche pour la segmentation d'images de résonance magnétique (RM) 3D cardiovasculaires, condition préalable essentielle à la création de modèles cardiaques spécifiques au patient et donc au traitement de cardiopathies complexes. Notre objectif est de créer un modèle qui tire des leçons de la segmentation générée par l'utilisateur et qui suggère activement aux experts des images IRM difficiles pour une segmentation manuelle. Cela pourrait réduire considérablement les coûts et le temps consacrés à cette procédure complexe, permettant ainsi aux radiologistes de consacrer plus de temps aux soins des patients. Bien que cet exemple spécifique démontre bien l’impact positif du concept sur la société, il existe une multitude d’applications autres que celles du secteur de la santé, qui bénéficieront des résultats de la recherche dans ce domaine.

Vous trouverez le document de recherche complet sur MIDL 2019 ici: Segmentation sémantique induite par l'incertitude grâce à un apprentissage collaboratif homme-machine