Approches neuronales pour l'analyse de sentiment avancée

Ruidan He, Wenya Wang et Daniel Dahlmeier (Machine Learning Singapore)

L’analyse des sentiments s’est développée pour devenir l’un des domaines de recherche les plus actifs en traitement du langage naturel en raison du volume croissant de données d’opinion enregistrées sous forme numérique. Il a un large éventail d'applications dans différentes entreprises et différents domaines sociaux, aidant tant les entreprises que les particuliers à mieux comprendre les informations d'opinion pour la prise de décision. Récemment, des tâches plus avancées telles que l'analyse de sentiment basée sur l'aspect (ABSA) deviennent populaires. ABSA est basé sur l'idée qu'un avis consiste en un sentiment et une cible. Une opinion sans que sa cible soit identifiée est d'une utilité limitée. Ainsi, il vise à découvrir des sentiments sur des entités et / ou leurs aspects. Par exemple, dans une critique de restaurant «Je dois dire qu'ils ont l'un des délais de livraison les plus rapides de la ville», le terme d'aspect est «délais de livraison», sur lequel un avis positif est exprimé. Généralement, la première étape d'ABSA est l'extraction d'aspect, qui consiste à extraire des termes d'aspect du texte saisi. Dans cet article, nous résumons nos travaux de recherche récents sur le problème de la construction de modèles neuronaux efficaces pour l'extraction d'aspect, dans des environnements supervisés et non supervisés. Ce travail a été effectué dans le cadre du programme de doctorat SAP Industry. programme en collaboration avec l'Université nationale de Singapour et l'Université technologique de Nanyang.

Extraction d'aspect traitée comme un problème d'étiquetage de séquence

Dans cette catégorie, la tâche consiste à extraire des mots d’aspect et des mots d’opinion figurant explicitement dans chaque phrase. Prenant l'exemple mentionné ci-dessus, étant donné la phrase de révision «Je dois dire qu'ils ont l'un des délais de livraison les plus rapides de la ville», notre tâche consiste à identifier les délais de livraison comme un terme spécifique et le plus rapidement comme un terme d'opinion. Ces connaissances sont utiles pour obtenir un résumé d'opinion structuré, qui offre une vision claire des principaux sujets / aspects et des distributions d'opinion associées à partir d'une grande quantité de texte. La figure 1 montre un exemple de résumé d'opinion structuré sur deux appareils photo numériques.

Figure 1: Comparaison des opinions de visualisation de deux appareils photo numériques

Comme les cibles que nous extrayons peuvent comporter plusieurs mots, nous appliquons le schéma d’étiquetage BIO, c’est-à-dire que chaque mot d’une phrase est étiqueté comme l’une des cinq étiquettes suivantes: «BA» (début d’aspect), «IA» (à l’intérieur de aspect "," BO "(début d’opinion)," IO "(intérieur de l’opinion) et" O "(autres). Ainsi, la tâche est formalisée en tant que problème d’étiquetage de séquence supervisée.

Nous abordons le problème en nous concentrant sur les relations de dépendance syntaxiques entre les mots de chaque phrase. La raison pour laquelle nous nous sommes concentrés sur les dépendances est qu’il existe certaines relations syntaxiques entre les mots d’aspect et les mots d’opinion qui devraient aider à s’identifier. Par exemple, comme le montre la figure 2, le burger de poisson et les goûts sont des termes d'aspects de vérité, accompagnés respectivement des meilleurs et des plus frais. Étant donné les goûts comme terme d'aspect, frais peut être extrait comme terme d'opinion par le biais d'une relation directe. Et étant donné que burger est un terme d'aspect, les goûts peuvent être extraits sous un autre terme d'aspect à travers la relation d'indirection. Sur la base de cette observation, nous construisons un réseau neuronal récursif basé sur une arborescence de dépendances, capable de calculer la représentation de haut niveau de chaque mot intégrant les relations de dépendance inhérentes aux autres. Outre cela, nous considérons également les interactions de contexte séquentielles à travers un modèle graphique appelé Champ aléatoire conditionnel (CRF). En combinant les deux modèles dans une structure commune entièrement formée, nous obtenons des résultats prometteurs par rapport aux méthodes existantes. Ce travail est publié dans EMNLP’16 en tant que champs aléatoires conditionnels neuronaux récursifs pour l’analyse de sentiment basée sur un aspect.

Figure 2: Exemple de dépendance pour l'analyse des sentiments

En nous concentrant sur la même tâche, nous avons publié un autre article intitulé Attitudes multicouches couplées pour la co-extraction de mots d’aspect et d’opinion dans AAAI’17. Ce travail fait avancer la méthode précédente en remplaçant les relations de dépendance pré-traitées par un mécanisme d'attention automatique. Une des limites de la méthode précédente est que les relations de dépendance pré-générées sont sujettes aux erreurs, en particulier lors de l’analyse de textes informels. La structure syntaxique incorrecte peut nuire au processus d'apprentissage. Nous proposons donc un modèle d’attention de bout en bout pour apprendre automatiquement les interactions entre ces mots. La figure 3 illustre l'architecture du modèle. Les attentions couplées se réfèrent à un aspect d'attention et à une attention d'opinion. Ils sont couplés (interactifs) dans le processus d'apprentissage pour permettre la corrélation entre les mots d'aspect et les mots d'opinion. Nous utilisons ces attentions pour sélectionner les mots les plus pertinents dans chaque phrase en ce qui concerne l'extraction d'aspect et l'extraction d'opinion. Ce modèle ne nécessite aucune ressource linguistique et peut néanmoins atteindre des scores plus élevés que le modèle basé sur la dépendance.

Figure 3: Illustration du modèle d'attention couplée

Extraction d'aspect abordée comme problème de modélisation

L'extraction supervisée d'aspect nécessite des données étiquetées au niveau du mot pour la formation, ce qui est difficile à obtenir dans la réalité. Contrairement à cela, notre récent article ACL intitulé Un modèle d'attention neuronale non supervisée pour l'extraction d'aspect aborde le problème dans un cadre non supervisé à l'aide de la modélisation par sujet. Dans ce cas, étant donné les textes bruts non étiquetés, l’objectif est (1) d’extraire un ensemble d’aspects (sujets) représentés par des listes de mots classés, où les mots les plus importants de chaque aspect sont considérés comme des termes d’aspect; (2) mapper chaque phrase du corpus sur l'un des aspects découverts. La figure 4 illustre le flux de travail de haut niveau.

Figure 4: Flux de travail de haut niveau

Dans le contexte de la compréhension des revues de produits, les aspects de sortie et les phrases pertinentes peuvent être utilisés pour construire un résumé de revue structuré. La figure 5 montre un exemple de résumé aidant les utilisateurs à comprendre rapidement les informations clés d'un grand nombre d'avis.

Figure 5: Exemple de résumé de l'examen d'un restaurant

L'un des principaux défis de cette tâche est que les aspects déduits tendent à être incohérents - les aspects consistent souvent en des termes d'aspect non liés ou faiblement liés. Contrairement aux modèles de thèmes conventionnels tels que les variantes de LDA (Latent Dirichlet Allocation) qui fonctionnent sur des types de mots discrets, nous avons proposé une architecture neuronale simple mais efficace qui améliore considérablement la cohérence des aspects inférés.

Comme illustré à la figure 6, dans notre modèle d’extraction d’aspect basé sur l’attention (ABAE), nous représentons des mots avec des incorporations et le but est d’apprendre un ensemble d’incorporations d’aspects, où chaque aspect peut être interprété par ses mots les plus proches dans l’espace d’incorporation. Le modèle prend une phrase de révision en entrée, en mappant chaque mot à un mot incorporé préalablement formé. Nous filtrons d’abord les mots incorporés en utilisant un mécanisme d’attention en rétrogradant les mots qui ne sont pas d’aspect, puis nous représentons la phrase par la somme pondérée des mots incorporés. Ensuite, nous essayons d’approximer l’incorporation de la phrase sous la forme d’une combinaison linéaire d’incorporations d’aspects. Le processus de formation est analogue à celui des autoencodeurs, dans lesquels nous utilisons la réduction de dimension pour extraire les facteurs communs aux phrases incorporées et reconstituer la phrase en tant que sommation pondérée des incorporations d'aspects. Le mécanisme d'attention insiste moins sur les mots qui ne font partie d'aucun aspect, ce qui permet au modèle de ne se concentrer que sur les mots d'aspect.

Figure 6: Illustration du modèle ABAE

Il est à noter que le modèle d'attention neuronale est formé dans un environnement non supervisé, où l'objectif est simplement de minimiser l'erreur de reconstruction. De manière surprenante, nous avons constaté que le mécanisme d'attention appris dans cet état fonctionne toujours très bien et est capable de se concentrer sur des mots d'aspect informatif. Dans nos expériences, nous avons évalué le modèle en utilisant deux critères: (1) est-il capable de trouver des aspects significatifs et cohérents sur le plan sémantique; (2) Est-il capable de mapper avec précision une phrase d'entrée sur l'un des aspects découverts? Selon nos résultats expérimentaux, notre modèle peut surperformer de manière significative et constante les modèles de sujet précédents pour diverses tâches d’évaluation.

Bien que dans ce travail nous nous concentrions sur l'extraction d'aspect, une tâche spécifique de l'analyse des sentiments, nous avons en fait considéré un problème de modélisation de sujet général qui vise à extraire les sujets principaux de textes non étiquetés. Ainsi, notre modèle pourrait potentiellement être appliqué à des tâches similaires avec différents types de texte.

L'extraction d'aspect est une étape majeure vers une analyse fine des sentiments et, dans la littérature, elle a été formulée sous différentes tâches, telles que l'étiquetage de séquence ou la modélisation de sujets. Dans ce billet de blog, nous avons brièvement présenté trois de nos travaux récents dans ce domaine, abordant le problème dans différents contextes. Pour une explication détaillée du modèle et les résultats expérimentaux, veuillez vous reporter à nos articles. Nous souhaitons que nos travaux inspirent les recherches futures sur l'extraction d'aspect et aident les professionnels de l'industrie à mettre en place des systèmes efficaces d'analyse avancée des sentiments.