Progrès de l’équipe Pluto Data en novembre

Dans le dernier message, Changbae, spécialiste des données à Pluton, a présenté notre projet Open: la désambiguïsation du nom de l'auteur. Ce projet est une partie importante de l'équipe de données de Pluto. Aujourd'hui, je veux partager ce que notre équipe de données fait et ses progrès en novembre.

L'équipe de données s'est concentrée sur deux projets:

  1. Projet
    Ce projet, qui a déjà été introduit, est conçu pour permettre une avancée décisive dans la correspondance d’objets académiques antérieurs (par exemple, des documents) avec le chercheur individuel approprié et pour appliquer la même méthodologie aux intrants futurs.
    Initialement, ce projet a été réalisé uniquement par les membres de l'équipe, mais à partir du quatrième trimestre, nous essayons d'en faire un projet ouvert. Nous croyons que des caractéristiques de projets ouverts telles que la collaboration, la transparence et l'inclusivité nous mèneront à la solution beaucoup plus rapidement. En outre, nous continuons de penser que nous avons besoin des informations de différentes personnes du monde universitaire pour le faire. Nous avons donc préparé un travail préliminaire pour ouvrir le projet en novembre.

  2. Lorsqu'ils recherchent des articles, les chercheurs se réfèrent généralement à des résumés et à des listes de références. Mais ils ne savent toujours pas quelle est la valeur de ces papiers, ils ont donc passé beaucoup de temps à chercher de «bons papiers». Pour résoudre ce problème, Data Team a démarré ce projet.
    Ce projet explore 1. Les critères pour juger en tant que «bonne recherche» et 2. Comment mesurer les critères de jugement.
    Ceci est similaire au travail que nous recherchons pour des mesures quantitatives de la production scientifique, en remplacement des indices utilisés par les universités actuelles (c.-à-d. Facteur d’impact). Nous pensions que si nous trouvions des indicateurs de «bonne recherche», cela pourrait également résoudre ce problème. Les mesures que nous explorons doivent être quantitatives, basées sur des données robustes, rapidement mises à jour et rétrospectivement, normalisées par discipline, et ne peuvent pas être manipulées.

Au cours de ces projets, nous avons constaté qu’il était problématique que non seulement nous ne comprenions pas complètement notre base de données, mais que nous ayons également besoin d’un contrôle de la qualité des données. Nous nous sommes donc concentrés sur l'amélioration de notre compréhension et de la qualité de nos données.

* Cet article résume les progrès globaux de Data Team. Plus d'informations sur le projet Open sont disponibles dans la prochaine série.

Analyse exploratoire des données (EDA)

Tout d'abord, nous avons mené EDA pour améliorer notre compréhension de l'ensemble de la base de données. EDA est une approche qui analyse des ensembles de données pour résumer leurs principales caractéristiques, avec des méthodes visuelles. En règle générale, EDA permet de voir ce que les données peuvent nous indiquer avant la tâche de modélisation formelle ou de test d'hypothèse. Avec EDA, nous avons obtenu des distributions pour les éléments suivants: nombre de références, nombre de citations, type de document, nombre de mots dans l’abrégé, nombre d’URL disponibles, nombre de co-auteurs, nombre de publications pour chaque auteur, année de publication et journal chaque. l'article est publié dans

Filtration

Après avoir approfondi notre compréhension de l’ensemble des données, nous avons préparé le travail de filtrage.
Voici une description des travaux de filtrage visant à améliorer la qualité des données.

  • Utilisation du type de document (type de document)
    Nous avons obtenu des informations sur le type de document de l'ensemble des données en utilisant EDA. À partir de ces informations, nous avons vérifié qu'environ 20% de l'ensemble des données étaient des données de brevets et non des documents. Nous avons effectué un test pilote pour confirmer que les informations de type doc via EDA étaient vraies et les résultats du test nous ont indiqué qu'elles étaient fiables. Nous avons donc utilisé les informations de type doc pour filtrer les données de brevets.
  • Utiliser la longueur de l'abrégé
    Ce critère de filtrage est divisé en deux cas basés sur la longueur de l’abrégé. L'un est le cas où la longueur de l'abrégé est très courte. Le résumé très court contient moins de 20 mots. Ces cas ne nécessitent pas d’autres conditions. Et l’autre cas, c’est que la longueur de l’abrégé est légèrement courte. Le résumé qui est légèrement court contient 20 à 50 mots. Ces cas nécessitent d'autres conditions. Sur la base de cette idée, nous pourrions distinguer le type de données, telles que les lettres, les dictionnaires ou les données audio.
  • Supprimer les données des index
    Nous avons filtré les données provenant d’autres sites d’index académiques, et non les données originales. Ces enregistrements de données sont susceptibles d'être dupliqués dans notre base de données car celle-ci provient d'un service d'indexation, Microsoft Academic. Ainsi, les données provenant d’autres index sont «double indexées».
  • Supprimer les données sans liens vers d'autres données
    Nous avons filtré les données sans aucune référence ou citation. Nous sommes confiants dans l’élagage de ces données car elles ne sont pas si importantes dans la base de données pour le moment, et nous pouvons les restaurer à tout moment si nous en avons besoin.

Vérification

Après avoir filtré les données, nous avons testé des idées d'auto-citation.
Ce test a été effectué pour vérifier 1. le filtrage est réussi en comparant les données d'origine et les données filtrées et 2. la validité de l'idée d'auto-citation sur des données de meilleure qualité.

Nous avons bloqué le nom de famille de Cruz qui a la taille appropriée et créé le graphe de réseau basé sur le bloc. (noeud: auteur, bord: référence) Afin de n’identifier que les cas nécessaires à la validation de l’idée, nous avons exclu les cas où le nom correspondait à 100% car notre idée ne fonctionne que lorsque le nom de l’auteur est ambigu.

Nous nous sommes ensuite concentrés sur les cas où les noms et les références étaient liés, faisant référence à la distribution des données de noms. Nous avons fait référence à la distribution du nom car la décision de fusionner deux auteurs portant des noms similaires est très sensible à la distribution de leurs noms. Supposons qu'il existe 1 000 identités nommées David Cruz et que 2 d'entre elles soient associées à une référence, il est alors difficile de garantir qu'elles sont la même personne. Mais s'il n'y a que 2 David Cruz et qu'ils sont liés à une référence, il y a de fortes chances qu'ils soient la même personne. En d’autres termes, la distribution des données de nom peut déterminer si elles sont fiables ou non.

Résultat

Exemple de graphes de réseau entre auteurs
  • Tester des données sans filtrer
    Sur la base des données de 47 585 auteurs, 100 370 articles et 6 925 références, nous avons obtenu les résultats avec 118 cas et nous avons pu éliminer l'ambiguïté des noms de 227 auteurs.
  • Test sur données avec filtrage
    Sur la base des données de 34 202 auteurs, 82 069 articles et 6 663 références, nous avons obtenu les résultats avec 139 cas et nous avons pu éliminer l'ambiguïté des noms de 321 auteurs.
  • Résumer
    - papier: 18,23% refusé
    - auteur: 28,12% refusé
    - sous-graphique: 5,34% refusé
    - auteur fusionné: augmentation de 23%
    - Grâce aux résultats des tests, nous avons pu vérifier que le filtrage était réussi et que nos idées fonctionnaient. Nous pensons que ces résultats sont apparus lorsque des données sans signification ont été filtrées.

En conséquence, nous avons eu des résultats positifs en novembre et nous essayons maintenant de les appliquer à l’ensemble des données de Scinapse sur la base de la tentative de novembre.

Notre équipe de données joue toujours un rôle important derrière les services. À travers ce post, j'espère que les utilisateurs connaîtront les efforts de notre équipe de données.

Et l'équipe de Pluto accueille toujours les participants qui souhaitent rejoindre le projet Open avec notre équipe de données
Réseau Pluton
Page d'accueil / Github / Facebook / Twitter / Telegram / Medium
Scinapse: moteur de recherche académique
Email: team@pluto.network