Projet ouvert Pluton (2)

Désambiguïsation du nom de l'auteur en utilisant l'auto-citation

Bonjour, c’est l’équipe d’exploration de données de Pluto Network.

Dans un précédent article, nous avions présenté deux idées pour la désambiguïsation du nom de l'auteur - l'auto-référence et la similarité d'un coauteur - ainsi que certains problèmes tels que des données malformées.

Ce post décrit le prétraitement des données et la mise en œuvre des idées du post précédent. Avant de commencer, définissons les termes utilisés dans cet article. Certains sont cités dans des articles et les autres sont les miens.

Ici, nous utilisons le terme individu pour désigner une personne réelle, et un auteur pour désigner une entité résultant de la procédure de désambiguïsation de l'auteur.
Le problème se manifeste de deux manières: un individu donné peut être identifié comme deux auteurs ou plus ([divisé, nécessitant ainsi une fusion]), ou deux personnes ou plus peuvent être identifiés comme un seul auteur ([fusionné, nécessitant ainsi une scission] ).

Nous nous concentrons sur la fusion (c'est-à-dire l'ancienne), sans scission, car nous avons rencontré peu d'auteurs à scinder contrairement au grand nombre d'auteurs à fusionner.

A côté d'eux, nous utilisons le terme publications pour indiquer des objets considérés comme des articles dans la base de données Scinapse. Il peut s’agir de brevets, de lettres de nouvelles ou même de musiques (exemple ci-dessous). Parmi eux, les articles indiquent des articles de recherche académique, et les autres publications qui ne sont pas des articles seront appelées publications autres que des articles dans cet article.

La citation est nécessaire pour la diambiguation, source: Dan4th Nicholas, Flickr (CC BY 2.0)

Prétraitement des données

Lors de la phase de prétraitement, nous nous sommes concentrés sur la suppression des publications qui ne sont pas des articles, c’est-à-dire des publications autres que des articles. Nous ne savons pas pourquoi un si grand nombre de publications autres que d'articles sont incluses dans la base de données, mais il est évident qu'elles doivent être supprimées de notre base de données.

Bach est l'un des plus grands musiciens, mais ses œuvres musicales ne sont pas des articles.

Comme ils ne sont pas étiquetés comme des articles ni des non-articles, nous ne pouvons pas les supprimer facilement. Au début, nous avons agrégé les publications non articles que nous avons trouvées jusqu'à présent. Nous avons ensuite examiné leurs attributs tels que les citations, les modèles d’auteur et les résumés.

Le problème était que, même si ces publications non-articles ont un motif spécifique, disons X, toutes les publications portant le motif X n'étaient pas des publications non-articles. Par exemple, les publications non-articles ont tendance à avoir de courts résumés, mais certains articles ont aussi de très courts résumés (moins de 15 mots). Pire, certains résumés ont même été mal formés.

Ainsi, nous avons dû répéter le cycle; rechercher un motif, examinez les publications avec le motif pour vérifier si c’est une condition nécessaire pour les publications autres que des articles. Cela a pris beaucoup de temps et de contribution des contributeurs open source.
* Notez que nous n’aurions pas pu utiliser l’apprentissage automatique pour trouver de telles règles, car nous n’avions pas assez d’exemples.

Enfin, nous avons trouvé deux modèles distinctifs permettant de distinguer les publications autres que des articles. La première est que certaines publications avec des domaines spécifiques ne sont pas des articles. De toute évidence, les articles de «google.patent.com» doivent être un brevet, pas un article. Deuxièmement, certaines des publications autres que des articles ont souvent été écrites par les mêmes groupes d'auteurs. Le plus grand nombre de publications avec le même groupe d'auteurs était supérieur à 20 000.

Est-il possible de publier autant d'articles avec le même auteur?

Nom de l'auteur Désambiguïsation

Nous avons testé les deux idées - similitude de co-auteur et auto-citation - au sein de petits blocs d’auteurs regroupés par noms de famille ou blocs de noms de famille. Incroyablement, bien que la similarité des coauteurs soit l’une des caractéristiques les plus citées dans la littérature sur la désambiguïsation des noms d’auteurs, il y avait un petit nombre d’auteurs avec des coauteurs et des noms similaires. Au lieu de cela, il y avait beaucoup plus d'auteurs qui citaient d'autres auteurs portant des noms similaires ou identiques, ce qui implique qu'ils peuvent être les mêmes individus.

Nous en avons trouvé la raison dans un article de Microsoft Academic.

Ainsi, nous avons décidé de nous concentrer uniquement sur l'auto-citation, car la désambiguïsation du nom de l'auteur utilisant la similarité co-auteur est déjà adoptée par Microsoft Academic.
(* La majorité de notre base de données provient de Microsoft Academic)

Même s'il y avait beaucoup d'auteurs portant des noms similaires ou identiques dans chaque sous-graphique, nous n'étions toujours pas sûrs qu'il s'agissait des mêmes personnes, même après les avoir examinées. Par exemple, même si J. Kim a cité l’article d’un autre, il n’est pas possible de dire qu’il s’agit du même individu, car il peut y avoir beaucoup de J. Kim dans les milieux universitaires. (Cela peut arriver même au sein d'un seul laboratoire en Corée du Sud)

Étant donné que nous sommes sensibles aux faux positifs, nous préférons des règles strictes même si le nombre de résultats est faible. Après avoir inspecté de nombreux sous-graphiques, nous avons adopté les règles suivantes.

1. Sous-graphique de citation avec des noms de famille identiques

Nous avons supposé que les auteurs d'un même individu porteraient exactement le même nom de famille, car les chercheurs ont tendance à ne pas abréger leur nom de famille. De plus, nous avons filtré les noms de famille non anglais, car il n’était ni facile ni même inefficace de gérer chaque langue.

Ainsi, nous avons bloqué les données par noms de famille et créé des sous-graphes avec les auteurs comme nœuds et les citations comme contours. Après les mots, nous avons procédé à la désambiguïsation dans chaque sous-graphique.

2. Correspondance exacte du nom

Dans l'étape précédente, nous avons trouvé plusieurs auteurs qui ont cité d'autres auteurs portant le même nom de famille. Cependant, il est évident qu’ils ne représentent pas nécessairement le même individu. Pour trouver certains cas, nous avons inspecté des sous-graphiques.

Ce faisant, nous avons rencontré de nombreux auteurs portant exactement le même nom dans des sous-graphiques. Ils représentaient généralement les mêmes personnes, sauf lorsque le prénom ou le nom complet est trop commun (surtout lorsque les prénoms sont écrits en initiales).

3. existence unique

En résumé, les auteurs de chaque sous-graphe à ce stade ont des relations de citation et portent exactement le même nom. Nous avons considéré d'autres attributs tels que les domaines d'études, les revues et les affiliations, mais la citation était l'indicateur le plus puissant parmi eux. Puisque nous ne voulons pas nous en tenir à ce problème, nous avons simplement décidé d’exclure les auteurs portant des noms communs.

Pour quantifier le caractère commun des noms, nous avons utilisé notre base de données elle-même. Nous avons choisi les sous-graphes où les noms dans les sous-graphes n'existent pas en dehors des sous-graphes (c'est-à-dire, aucun nom identique déconnecté). Par exemple, il n'y a que deux auteurs nommés C. Gram dans notre base de données, et l'un d'eux en a cité un autre, alors c'est le cas. Bien entendu, cette relation peut être étendue à davantage d’auteurs (sous-graphes de plus grande taille).

Nous avons pensé que ces critères étaient assez stricts et la vérification par échantillonnage aléatoire a montré que le résultat était crédible.

Conclusions

Pour résumer, nous avons supprimé 58 796 366 (28,05%) des publications non-articles inutiles lors de l'étape de prétraitement et avons fusionné 1 608 289 auteurs en 649 519 par auteur. Désambiguïsation à l'aide de citations automatiques.

Voici les problèmes qui nous préoccupaient au cours de la réalisation du projet.

1. les doublons

Plusieurs publications pourraient représenter un seul article dans la réalité et l’appeler «homonymie du nom de publication». Cependant, même si plusieurs articles ont exactement le même titre et partagent certains auteurs, nous ne pouvons toujours pas savoir s'ils représentent le même article ou non, car certains d'entre eux avaient des DOI ou des dates de publication différentes.

Quoi qu’il en soit, nous pensons que plus de dizaines de milliers de publications pourraient être dupliquées et nous devrions les fusionner pour améliorer la qualité de nos données.
(* Ceci peut également impliquer des contrôles de version)

2. impact

Nous respectons les chercheurs et les articles. Mais comme leur impact varie, les métriques sont souvent utilisées dans les évaluations universitaires.

Sous cet aspect, même s'il est difficile à mesurer, désambiguïser des personnalités remarquables telles que les lauréats du prix Nobel peut être plus significatif que désambiguïser les autres auteurs en moyenne. Cela ne veut pas dire que de telles différences de signification existent entre les résultats de leurs recherches, mais nous parlons d’impact sur le système d’information en désambiguant ces personnes.

Nous ne savons jamais combien d’individus, pas d’auteurs, appartiennent au monde universitaire, mais leur nombre est certainement inférieur à 100 millions. Nous avons fusionné environ un million d'auteurs sur un total d'env. 150 millions d'auteurs, et en effet c'est une fraction infime. Néanmoins, il est important que Team Pluto dispose d’une base de données bien organisée et nous avons franchi une première étape dans l’importation.

Dans le prochain post, nous allons désambiguïser les documents dupliqués et essayer de fusionner les auteurs notables d'une nouvelle manière.

Réseau Pluton
Page d'accueil / Github / Facebook / Twitter / Telegram / Medium
Scinapse: moteur de recherche académique
Email: team@pluto.network