Algoritmos y piloto para extracción de información significativa

Piloto para empleo de técnicas avanzadas de semántica latente y semántica basada en ontologías, propuesta de algoritmos, y su realización, para la ayuda a la decisión a los responsables de elaborar políticas públicas a partir de la extracción de información relevante de temáticas de los documentos y su evolución temporal.

Desarrolladores

EL proyecto ha sido desarrollado por el grupo Ontology Engineering Group (OEG) de la Universidad Politécnica de Madrid (UPM).

Resumen

El objeto de este contrato es la investigación del empleo de técnicas avanzadas de semántica latente y semántica basada en ontologías, la propuesta de algoritmos y su realización práctica, para realizar automáticamente un análisis inteligente de cantidades ingentes de información documental, extrayendo información significativa como las temáticas de los documentos y su evolución temporal.

La utilización de estas técnicas avanzadas de semántica latente permite a la SEAD mejorar sus actuaciones, entre otros, en los siguientes ámbitos en los que se centran las actividades del contrato:

Ayudas al sector TIC: Identificación de proyectos similares y comparación de las distintas actuaciones.
- Identificación automática de proyectos subvencionados similares a un proyecto candidato a recibir financiación pública. Esta función ayudaría al evaluador a comprobar que la solicitud es realmente innovadora y a verificar que el mismo proyecto no ha recibido ya ayudas públicas de otros organismos.
- Comparación de las actuaciones de financiación de la innovación española TIC de diversos organismos para identificar solapamientos.
- Evolución en el tiempo de las diversas políticas de financiación pública de la innovación española para identificar áreas consolidadas, moribundas y emergentes.
Formación y empleo en el sector TIC: estudios de adecuación de la oferta y la demanda formativa del mercado laboral TIC español.
- Análisis comparativo de la demanda profesional del sector TIC español con la demanda del sector TIC de otros países avanzados (Estados Unidos, Unión Europea, …).
- Estudiar la evolución en el tiempo de la demanda profesional del sector TIC español para identificar demandas consolidadas, moribundas y emergentes.
Innovación en el sector TIC: comparación con otros países avanzados y prospectiva de la innovación.
- Comparar la innovación española con la de otros países avanzados (EE.UU., Unión Europea,…) mediante la comparación de sus respectivos corpora de patentes del sector TIC, para identificar alineamientos, puntos fuertes y lagunas en la innovación española.
- Estudiar la evolución en el tiempo de la innovación española para identificar áreas de innovación consolidadas, moribundas y emergentes.
Investigación en el sector TIC: comparación con otros países avanzados y prospectiva de la innovación.
- Comparar la investigación española con la internacional mediante la comparación de sus respectivos corpora de artículos de investigación publicados del sector TIC, para identificar alineamientos, puntos fuertes y lagunas en la investigación española.
- Estudiar la evolución en el tiempo de la investigación española para identificar áreas de investigación consolidadas, moribundas y emergentes

Asimismo, el piloto de estudio de la evolución temporal de las temáticas de los corpus analizados, se ha contemplado desde el presente hasta 10 años atrás.

En el proyecto se ha abordado:

Búsqueda de similares (LDA) con Spark

Descomposición de documentos en sus tópicos (cada tópico: un conjunto de palabras que caracteriza el documento)
Comparativa de tópicos (búsqueda de tópicos iguales, duplicados…)
LDA temporal: evolución temporal de tópicos, análisis de ramas más prometedoras que se desdoblan en dos o más ramas nuevas (tecnologías emergentes) o ramas que mueren y no tienen futuro.

Cabe, por último, señalar que las capacidades de estas herramientas avanzadas de semántica latente han captado el interés, también, de otros organismos externos, como la Oficina Española de Patentes y Marcas (OEPM), la Secretaría de Estado de Investigación, Desarrollo e Innovación (SEIDI), la Agencia Española de Administración Tributaria, la Fundación Española para la Ciencia y Tecnología (FECYT), el Servicio Público de Empleo Estatal (SEPE) o el Centro para el Desarrollo Tecnológico Industrial (CDTI). Fruto de este interés, se han elaborado nuevos desarrollos en colaboración con la FECYT y la SEIDI que se han integrado en la plataforma Corpus Viewer.

Los entregables del proyecto contendrán la descripción, análisis y justificación teórica de los algoritmos propuestos, e implementación práctica de los algoritmos (pseudocódigo del algoritmo, código compilable y ejecutables de su implementación práctica, módulos externos, manuales de instalación y de uso de los mismos, etc.).

El código fuente se publicará próximamente en la plataforma Github.