Desambiguación de agentes del sector I+D+i

Desarrolladores

El proyecto ha sido desarrollado por el grupo Elhuyar y coordinado por Xabier Saralegi.

Resumen

El proyecto tiene como objetivo el desarrollo e implementación de componentes software para reconocer y desambiguar los investigadores y organismos de las bases de datos de ayudas públicas a la ciencia y la innovación, y de sus resultados asociados: publicaciones científicas y patentes

La necesidad del proyecto se justifica por el hecho de que un mismo agente del sector I+D+i puede aparecer generalmente con diferentes denominaciones en las bases de datos empleadas en el proyecto de Inteligencia Competitiva, por lo que para su caracterización resulta necesario localizar todas las entradas relativas a dicho agente en todas las bases de datos disponibles (e.g.: proyectos de investigación en los que ha participado, artículos que ha coautorizado, etc).

Denominaciones de la Universidad Carlos III de Madrid

La desambiguación tiene lugar, en primer lugar, para cada base de datos, ya que incluso dentro de una misma base de datos un agente (investigador u organismo) puede aparecer con diferentes nombres e identificadores. En segundo lugar, el desarrollo SW busca todas las entradas de un mismo agente en diversas bases de datos.

En resumen: se trata de identificar de manera única a cada investigador u organismo del sector I+D+i español, y localizar las entradas relativas a dicho agente en todas las bases de datos. Esta desambiguación resulta imprescindible como paso previo a la caracterización de los agentes del sector.

El sistema desarrollado consta de dos módulos:

  • Módulo de agrupación: Localiza pares de nombres que son podrían corresponder a la misma entidad. La búsqueda de pares de candidatos a pertenecer a una misma entidad se realiza únicamente en base al nombre aplicando las siguientes técnicas:
    • Normalización de nombres: se armonizan abreviaturas, iniciales, tildes, orden los elementos del nombre, etc.
    • String-matching: Cálculo eficiente de distancias entre todos los pares de nombres, identificando como candidatos aquellos cuya distancia sea inferior a un umbral
  • Modulo de desambiguación: Explota los metadatos y el texto no estructurado disponible para decidir si cada par identificado por el módulo anterior debe o no fusionarse.
    • Clasificación supervisada: Entrenamiento de un clasificador basado en redes neuronales y Gradient Boosting cuya salida establece si los agentes de cada par de candidatos son o no el mismo.
    • Construcción de clases de equivalencia: Mediante clustering aglomerativo se agrupan todas las instancias que corresponden a cada agente único. A continuación se muestra el diagrama del desarrollo para la desambiguación de agentes del Sector de I+D+i:

    Input: Dumps de Parstat, PN, Cordis y Scopus

    Agrupación de pares candidatos de equivalentes de organizaciones y autores
    Extracción de nombres de organizaciones y autores                                                           Normalización de nombres                                                                         String-maching entre nombres normalizados de mismos (intra) y distintos cospus (inter)

    Output/Input: Pares candidatos de organizaciones y autores equivalentes

    Desambigüación de pares candidatos y contrucción de clases de equivalencia
    Desambigüación de pares candidatos mediante clasificación supervisada
    Construcción de clases de equivalencia mediante clustering supervisado Asignación de id canónico                                                

Output: Organizaciones y autores equivalentes

La evaluación del sistema ha permitido concluir la importancia de esta tarea como paso previo a la caracterización de agentes, ya que la búsqueda de pares de candidatos proporciona un muy elevado número de potenciales duplicados (en algunos casos superior incluso al 50% de las entradas de la base de datos). Las prestaciones de los clasificadores desarrollados se han medido mediante el etiquetado manual de conjuntos de datos, permitiendo establecer una precisión de alrededor del 90% para el caso de los investigadores y del 75% para organizaciones.

A continuación se muestran los pares de entradas de candidatos identificados por el módulo de agrupamiento en las diversas bases de datos:

Autores
                            Parejas enlazadas  % Autores enlazados 

Intra-corpus

Patstat-Patstat 232.782  65% 
 PN-PN 28.760  13.2% 
 Scopus-Scopus 300.658  52.5% 

Inter-corpus

 PN-Patstat 96.719  16.9% 
 PN-Scopus 264.413  33.6% 
 Patstat-Scopus 181.248  19.5% 
Organizaciones
                                                           Parejas enlazadas  % Organizaciones enlazados 

Intra-corpus

Patstat-Patstat 54.407 79,7% 
 PN-PN 2.407  18,7% 
 Scopus-Scopus 61.765 79,2% 
 Cordis-Cordis 4.184  31,2% 

Inter-corpus

 PN-Patstat 27.322  33,7% 
 PN-Scopus 16.351 18,0% 
 PN-Cordis 6.187  27,2% 
 Patstat-Scopus 33.433 22,9% 
 Patstat-Cordis 19.061  24,4% 
 Scopus-Cordis 15.380  17,5%