Projet ouvert Pluton (1)

Présentation de la désambiguïsation du nom de l'auteur

Bonjour, c’est l’équipe d’exploration de données de Pluto Network.

Nous avons partagé dans des publications antérieures nos idées et les obstacles rencontrés lors de la création d’une plate-forme de communication savante décentralisée pour supprimer les obstacles existant dans les environnements de recherche.
Avant de mettre en œuvre certaines idées, l’équipe a estimé que les antécédents et les performances des universitaires devaient être gérés et calculés correctement. À l'heure actuelle, les bases de données universitaires sont principalement utilisées pour la recherche d'articles scientifiques. Elles sont donc gérées principalement en fonction d'articles individuels plutôt que d'auteurs, sans atteindre des normes systématiques élevées. Le fait que les informations sur les publications proviennent de dizaines de milliers de revues et d'éditeurs différents, qui appliquent des règles différentes pour la gestion de ces informations, pose de nombreux problèmes.

En pratique, les publications d'un même chercheur sont souvent divisées en plusieurs identifiants d'auteurs (publiés dans différentes revues, ayant ainsi différentes sources de données), et les publications d'auteurs différents sont fusionnées dans un identifiant unique. Il est difficile de distinguer les résultats de recherche des auteurs de noms similaires, car la plupart des données sont basées sur leurs noms sans système d’identification standard et universel. Nous avons identifié plusieurs autres problèmes dans notre base de données, tels que changements de nom lors du mariage, représentations multiples de noms, abréviations de noms, représentations incohérentes, etc.

Pluto Network utilise certaines techniques d’exploration de données pour trouver une solution de correspondance entre des objets académiques antérieurs (par exemple des documents) et des chercheurs individuels appropriés, et pour appliquer la même méthodologie aux intrants futurs. Nous appelons ce problème «Désambiguïsation du nom de l'auteur» et, avec la série de publications à venir, nous allons décrire en détail les défis auxquels nous sommes confrontés et les approches que nous prenons pour les surmonter.

https://scinapse.io/authors/2076473182 / https://scinapse.io/authors/2777878377

Avant d'explorer plus

Voici quelques-uns des défis de la désambiguïsation des noms d’auteurs et certaines de nos préoccupations.

  • Il n’ya pas assez de cas où la «vraie valeur» est connue. (c’est-à-dire une assurance à 100% qu’un couple d’auteurs donné est en réalité la même personne). Nous abordons donc très tôt l’apprentissage non supervisé et, plus tard, lorsque nous disposerons de suffisamment de données de formation et d’étiquettes appropriées, nous essaierons l’apprentissage supervisé avec base de données.
  • Les données sont plus sensibles aux erreurs Faux Positifs qu'aux erreurs Faux Négatifs. C'est-à-dire que la fusion incorrecte de différentes personnes dans le même identifiant peut être plus critique que l'absence d'identités fractionnées manquantes à fusionner. Par conséquent, il se peut que nous devions prendre des critères prudents avec des exigences de haute précision lors de la fusion d'auteurs.
  • Il y a trop d'identités d'auteurs pour essayer une approche gourmande sur chaque paire. (++ 100 millions) Nous faisons des “blocs” d’auteurs par leur nom de famille.
  • Contrairement aux problèmes habituels dans Kaggle, les entrées et les sorties ne sont pas définies. L’objectif n’est pas de prédire les valeurs dans certaines colonnes, mais d’identifier les mêmes objets quand ils sont stockés de manière différente et de distinguer les différents objets quand ils sont stockés comme tel, ce qui nécessite des tâches de très grande complexité. Des études antérieures utilisaient des modèles génériques d'apprentissage automatique, tels que Random Forest, avec des jeux de données spécifiques. En vous référant à ces essais antérieurs, nous aborderons d'autres techniques telles que le blocage, le regroupement, l'analyse de liens, etc.
  • Impossible de résoudre tous les problèmes à la fois. Plutôt que de séparer les auteurs mal fusionnés, nous nous concentrerons sur la fusion correcte des auteurs divisés lorsque relativement plus de données sont disponibles.

Tentatives faites

Comme mentionné ci-dessus, nous avons bloqué les auteurs avec leurs noms de famille et essayé de suivre ces «blocs de noms de famille».

Critère1: Auto-citation
- La citation est la principale source d’informations permettant de mesurer l’impact de chaque article. Ainsi, de nombreux universitaires, ainsi que d'autres raisons, citent souvent leurs propres études du passé. Dans ce contexte, nous avons pensé que si les auteurs d’un article de citation et de l’article cité présentaient des noms très similaires, ils avaient toutes les chances d’être la même personne.
- Par exemple, si un article rédigé par «Taylor Swift» cite un article rédigé par «T. Swift ", il est fort probable que" T. Swift ”est une abréviation de“ Taylor Swift ”et les deux articles sont écrits par la même personne, Taylor Swift.
- Sur la base de cette idée, pour chaque bloc de nom de famille, notre base de données a été structurée en réseau à l'aide de la bibliothèque Python NetworkX, les auteurs en tant que nœuds et les citations en tant qu'arêtes. (les graphiques de citation typiques définiraient les papiers comme des nœuds) En regardant les sous-graphes de chaque nom de famille, plusieurs auteurs identiques ont été trouvés.

Critère 2: co-auteurs
- Semblable à l'inférence logique de l'exemple ci-dessus dans l'auto-citation, différentes identités d'auteur portant des noms similaires et des profils de co-auteurs similaires auraient une forte probabilité d'être la même personne.
- Par exemple, si un article d'Adam Smith était co-écrit par Taylor Swift et qu'un autre article par Adam Smith a été co-écrit par T. J. Swift, nous pourrions croire qu'il est fort probable que T. J. Swift et Taylor Swift soient la même personne.
- Pour étudier cette inférence, nous avons créé des listes de co-auteurs pour chaque auteur, calculé leurs similitudes par paires et trouvé plusieurs cas où ils semblaient être les mêmes auteurs.

https://scinapse.io/authors/2131370184 / https://scinapse.io/authors/2691289941

Limites

Bien que nous ayons trouvé de nombreux cas de succès dans les essais ci-dessus, nous avons également rencontré plusieurs limitations. Celles-ci comprenaient non seulement des problèmes liés aux méthodologies utilisées, mais également à la nécessité de prétraiter les données.

1. On ne sait jamais
Même après avoir vérifié que deux identités d'auteur ont le même nom de famille, des représentations de noms similaires, des co-auteurs et des relations de citation mutuelles, nous ne pouvons toujours pas être SÛRS qu'ils représentent la même personne. C'est encore pire quand leurs noms sont abrégés en initiales. Nous essayons de définir nos propres critères pour déterminer si deux sont identiques. (encore une fois, ce problème est très sensible aux faux positifs)

Nous ne pouvons pas être sûrs qu’ils sont la même personne

2. Données mal formées
Beaucoup de disques (articles) manquaient de références (++ 10 millions). En examinant des échantillons aléatoires, beaucoup d’entre eux sont supposés être remplis de références. Nous déployons des efforts pour trouver des solutions.
Nous utilisons le nombre de mots dans les résumés pour filtrer les données mal formées. Dans le cas de papiers écrits en chinois, le mot compte ne fonctionne guère. Dans le cas de papiers indexés en numérisant leurs documents, les espacements sont souvent brisés (souvent en raison de l'échec de la capture des sauts de ligne). Nous explorons pour trouver plus de cas de malformés et des solutions à chacun.

Exemples de données malformées

3. Articles non liés à la recherche
Plusieurs dizaines de millions d'enregistrements ont été identifiés comme étant des contenus non académiques. (ou du moins nécessitant différentes structures d'indexation) Celles-ci incluent: brevets, courriers électroniques, enregistrements audio, etc. Nous proposerons davantage de modèles pour reconnaître autant d'objets de ce type que possible.
- ex) Caribbean Report (nouvelles audio de la BBC)
- ex) Dictionnaire historique du Japon
- ex) Enregistrement audio d'un concert de musique classique

4. Cas de bord
Des articles types de l'Organisation européenne pour la recherche nucléaire (CK) auraient plusieurs dizaines à des milliers de coauteurs.
- ex) Physics paper record record avec plus de 5 000 auteurs

A venir

En résumé, nous avons réalisé plusieurs analyses significatives basées sur des profils d'auto-citation et de coauteurs, mais elles ont leurs propres limites. Nous déploierons davantage d'efforts sur le prétraitement des données pour obtenir des données de meilleure qualité, répliquerons les tentatives précédentes sur l'ensemble de données traité et évaluerons l'amélioration de ces méthodes ou proposons de nouvelles approches.

Je vous remercie.

Réseau Pluton
Page d'accueil / Github / Facebook / Twitter / Telegram / Medium
Scinapse: moteur de recherche académique
Email: team@pluto.network