Desambiguación de agentes del sector I+D+i

Desarrolladores

El proyecto ha sido desarrollado por el grupo Elhuyar y coordinado por Xabier Saralegi.

Resumen

El proyecto tiene como objetivo el desarrollo e implementación de componentes software para reconocer y desambiguar los investigadores y organismos de las bases de datos de ayudas públicas a la ciencia y la innovación, y de sus resultados asociados: publicaciones científicas y patentes

La necesidad del proyecto se justifica por el hecho de que un mismo agente del sector I+D+i puede aparecer generalmente con diferentes denominaciones en las bases de datos empleadas en el proyecto de Inteligencia Competitiva, por lo que para su caracterización resulta necesario localizar todas las entradas relativas a dicho agente en todas las bases de datos disponibles (e.g.: proyectos de investigación en los que ha participado, artículos que ha coautorizado, etc).

Denominaciones de la Universidad Carlos III de Madrid

La desambiguación tiene lugar, en primer lugar, para cada base de datos, ya que incluso dentro de una misma base de datos un agente (investigador u organismo) puede aparecer con diferentes nombres e identificadores. En segundo lugar, el desarrollo SW busca todas las entradas de un mismo agente en diversas bases de datos.

En resumen: se trata de identificar de manera única a cada investigador u organismo del sector I+D+i español, y localizar las entradas relativas a dicho agente en todas las bases de datos. Esta desambiguación resulta imprescindible como paso previo a la caracterización de los agentes del sector.

El sistema desarrollado consta de dos módulos:

Módulo de agrupación: Localiza pares de nombres que son podrían corresponder a la misma entidad. La búsqueda de pares de candidatos a pertenecer a una misma entidad se realiza únicamente en base al nombre aplicando las siguientes técnicas:
- Normalización de nombres: se armonizan abreviaturas, iniciales, tildes, orden los elementos del nombre, etc.
- String-matching: Cálculo eficiente de distancias entre todos los pares de nombres, identificando como candidatos aquellos cuya distancia sea inferior a un umbral

Modulo de desambiguación: Explota los metadatos y el texto no estructurado disponible para decidir si cada par identificado por el módulo anterior debe o no fusionarse.

Clasificación supervisada: Entrenamiento de un clasificador basado en redes neuronales y Gradient Boosting cuya salida establece si los agentes de cada par de candidatos son o no el mismo.
Construcción de clases de equivalencia: Mediante clustering aglomerativo se agrupan todas las instancias que corresponden a cada agente único. A continuación se muestra el diagrama del desarrollo para la desambiguación de agentes del Sector de I+D+i:

Input: Dumps de Parstat, PN, Cordis y Scopus

Agrupación de pares candidatos de equivalentes de organizaciones y autores
Extracción de nombres de organizaciones y autores	Normalización de nombres	String-maching entre nombres normalizados de mismos (intra) y distintos cospus (inter)

Output/Input: Pares candidatos de organizaciones y autores equivalentes

Desambigüación de pares candidatos y contrucción de clases de equivalencia
Desambigüación de pares candidatos mediante clasificación supervisada	Construcción de clases de equivalencia mediante clustering supervisado	Asignación de id canónico

Output: Organizaciones y autores equivalentes

La evaluación del sistema ha permitido concluir la importancia de esta tarea como paso previo a la caracterización de agentes, ya que la búsqueda de pares de candidatos proporciona un muy elevado número de potenciales duplicados (en algunos casos superior incluso al 50% de las entradas de la base de datos). Las prestaciones de los clasificadores desarrollados se han medido mediante el etiquetado manual de conjuntos de datos, permitiendo establecer una precisión de alrededor del 90% para el caso de los investigadores y del 75% para organizaciones.

A continuación se muestran los pares de entradas de candidatos identificados por el módulo de agrupamiento en las diversas bases de datos:

Autores
	Parejas enlazadas	% Autores enlazados
Intra-corpus
Patstat-Patstat	232.782	65%
PN-PN	28.760	13.2%
Scopus-Scopus	300.658	52.5%
Inter-corpus
PN-Patstat	96.719	16.9%
PN-Scopus	264.413	33.6%
Patstat-Scopus	181.248	19.5%

Organizaciones
	Parejas enlazadas	% Organizaciones enlazados
Intra-corpus
Patstat-Patstat	54.407	79,7%
PN-PN	2.407	18,7%
Scopus-Scopus	61.765	79,2%
Cordis-Cordis	4.184	31,2%
Inter-corpus
PN-Patstat	27.322	33,7%
PN-Scopus	16.351	18,0%
PN-Cordis	6.187	27,2%
Patstat-Scopus	33.433	22,9%
Patstat-Cordis	19.061	24,4%
Scopus-Cordis	15.380	17,5%