Vigilancia tecnológica automática del sector TIC - ICTdocsim

Desarrollo de un piloto de cálculo de distancia semántica independiente de idioma, basada en conocimiento base aplicado a la prospectiva del sector TIC y al fomento de la Sociedad de la Información.

Desarrolladores

El proyecto, desarrollado por el grupo IXA de la Universidad del País Vasco (UPV-EHU).

Resumen

El objetivo del proyecto es desarrollar un sistema que calcula automáticamente la distancia semántica entre pares de documentos en inglés y español (pares monolingües y multilingües), extensible a otros idiomas. El prototipo es independiente del idioma a partir del uso de una base de conocimiento estructurada multilingüe (BCM):

el sistema detectará automáticamente los conceptos y entidades nombradas en el texto, los desambiguará respecto a la BCM según el contexto, y devolverá una lista de identificadores independiente del idioma.
el sistema calculará las distancias semánticas entre todos los pares de documentos, de forma que sepamos, para cada documento, cuáles son sus documentos más cercanos. El sistema hará lo mismo para documentos nuevos, e incluso para documentos en otros idiomas.

En lo referente a requisitos no funcionales:

El sistema está desarrollado en Java.
El desarrollo y la base de conocimiento son abiertos.
El sistema incluye una interfaz basada en formularios o línea de comandos que facilite la introducción y presentación de los datos calculados.
Las funcionalidades básicas se exponen como servicio web, para que puedan ser invocados desde otros sistemas, facilitando la interoperabilidad entre sistemas.

Los entregables del proyecto son el propio aplicativo correspondiente al prototipo descrito y la documentación descriptiva del mismo. Se ha entregado una máquina virtual con el aplicativo y la BCM instalados (docker).

El código fuente se encuentra disponible en la plataforma Github.

Detalle de la solución técnica:

La solución se basa en Wikipedia-Spotlight, busca en Wikipedia (Base de conocimiento Multilingüe) los conceptos y con ello buscaba en SolR (motor buscador textual: buscador de índices inversos). Gracias al mapping desarrollado in-situ entre conceptos de uno y otro, se dispone de un inventario interlingüe. La BCM es multilingüe gracias a los "interlingual links" de Wikipedia. En contra de lo que pasa con soluciones externas tales como Babelnet, no se depende de actualizaciones de terceros (por ejemplo, Wikipedia vuelca mensualmente sus contenidos), ni está ligado a licencias restrictivas que chocan con las propias licencias de Wikipedia. La BCM tiene licencia CC-BYSA, con lo que el cliente puede actualizarla a su conveniencia, o derivar versiones dependientes del dominio. La plataforma de búsqueda almacena en un índice auxiliar la representación interlingüe de los documentos, utilizando para tal propósito el del inglés.

La tecnología para el procesamiento de textos, incluidas la detección y desambiguación de conceptos y entidades nombradas es la desarrollada en los proyectos europeos Opener y Newsreader, basadas en las ixa-pipes y sus extensiones (third party tools), que tienen como principal lenguaje de desarrollo Java.

El sistema calcula la distancia semántica entre pares de documentos basándose en la representación vectorial y para acelerar el cómputo se utilizan algoritmos basados en IR (Information Retrieval-DM25 índices de búsqueda).