Taller sobre la confluencia de Datos Abiertos y Tecnologías del Lenguaje: Una oportunidad que no debemos perder

Fecha: 5 de octubre de 2016, 15:30-19:30.

Lugar: España, Madrid, Centro de convenciones IFEMA NORTE, Sala F.

Metodología

Reunir en un taller a destacados expertos en diferentes aspectos de esta poliédrica materia para compartir y discutir entre ellos, y con la audiencia, sus diferentes pero reveladoras visiones y experiencias, en un esfuerzo colectivo por enriquecer nuestro conocimiento sobre la confluencia de Datos Abiertos y Tecnologías del Lenguaje.

El taller se articula en varias secciones que tratarán diferentes facetas de la cuestión. Cada sección estará seguida de una discusión abierta donde los expertos, y la audiencia, tendrán la oportunidad de intercambiar, clarificar, abundar y construir sobre las ideas expuestas.

En la sección final, los expertos recapitularán sus recomendaciones para el futuro.

El taller estará precedido por una breve presentación de la cuestión y de los ponentes, preparando el escenario para el debate, y terminará con una recapitulación de las principales síntesis logradas en el taller.

Agenda

Presentación de la cuestión (Presentación): 10’
Retos: sociales, económicos, legales y técnicos (Panel): 40’
Discusión abierta: 25’
Experiencias (Panel): 50’
(pausa: 20’)
Discusión abierta: 20’
Políticas Públicas (Panel): 20’
Discusión abierta: 20’
Próximos pasos (Panel): 35’
Conclusiones y mensajes finales (Presentación): 5’

Ponentes

Retos

Asunción Gómez

Vicerrectora de investigación de la UPM de Madrid, directora del Ontology Engineering Group y coordinadora del nodo ODI de Madrid.
Título: La confluencia de Datos Abiertos y Tecnologías del Lenguaje. Reflexiones y experiencias.
Resumen: Como una de las mayores expertas internacionales en Open Data y Tecnologías del Lenguaje, Asunción Gómez nos ilustrará con fundadas reflexiones sobre sus retos y oportunidades desde diferentes ángulos (técnico, económico, social, legal) que acompañará con los numerosos casos de uso en los que ha estado involucrada personalmente.

Fernando Ramos, Félix del Valle y Ignacio Miró- Charbonnier

Miembros del Grupo de Investigación Publidoc-UCM, Universidad Complutense de Madrid.
Título: Investigación sobre los retos jurídicos de la confluencia de Datos Abiertos y Tecnologías del Lenguaje.
Resumen: El grupo de investigación Publidoc-UCM tiene el encargo de investigar, particularizar y sistematizar el marco legal para la implementación del Plan de Impulso de las Tecnologías del Lenguaje, abordando sus retos y contribuyendo a definir la mejor estrategia de datos abiertos de interés lingüístico y los modelos de sostenibilidad de los recursos lingüísticos abiertos.

Gema Ramírez

CEO de Prompsit Language Engineering.
Título: Retos económicos de la confluencia de Datos Abiertos y Tecnologías del Lenguaje: Prompsit, Un caso de éxito.
Resumen: Prompsit es una empresa del sector de las tecnologías de la lengua que provee principalmente de servicios de traducción automática personalizada y aplicaciones multilingües basadas en software y datos abiertos. Es un notable caso de éxito. Desde esta rica experiencia abordará los retos económicos de la confluencia de Datos Abiertos y Tecnologías del Lenguaje

Blanca Rodríguez

LT_Observatory project, Zabala Innovation Consulting.
Título: Lingüísiticos y Datos Abiertos. LT_Observatory.
Resumen: Datos Abiertos y Recursos Lingüísticos. Retos y oportunidades desde el punto de vista de la industria basados en el diálogo con las partes interesadas y la colección de recursos lingüísticos realizada en el proyecto europeo LT observatory.

Experiencias

Bente Maegaard

University of Copenhagen Centre for Language Technology Copenhagen, Denmark.
Título: Infraestructura común de recursos y tecnologías del lenguaje: CLARIN.
Resumen: CLARIN proporciona acceso fácil y sostenible a datos lingüísticos digitales (escritos, orales o multimodales) para investigadores de ciencias sociales y humanidades. CLARIN también proporciona herramientas avanzadas para descubrir, explorar, explotar, anotar, analizar y combinar estos conjuntos de datos, independientemente de dónde se encuentren. Para eso, CLARIN está construyendo una red federada de repositorios de datos, centros de servicio y centros de conocimiento, con un acceso único para todos los miembros de la comunidad académica de todos los países participantes. Los datos y las herramientas de los diferentes centros son interoperables, de modo que las colecciones de datos pueden combinarse y las herramientas de diferentes fuentes pueden encadenarse para realizar operaciones complejas en apoyo del trabajo de los operadores.

Iván Vladimir Meza

Investigador en el Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS), Universidad Nacional Autónoma de México (UNAM).
Título: La voz en español como dato abierto.
Resumen: La capacidad de grabar sonidos y voz es muy reciente en la historia. Los registros de vez son una ventana para el conocimiento lingüístico de la que no se disponía antes. Nos proporciona acceso a la forma más pura de lenguaje: cómo suena, cómo usamos esos sonidos, cómo se construyen los enunciados, cómo modificamos el significado de los enunciados mediantes las inflexiones de voz. Todos estos aspectos están ahora disponibles para su estudio no solo ahora, sino de ahora en adelante, también por las generaciones futuras. Asimismo, el potencial de la voz para mejorar la interacción con la tecnología es ilimitado, el reconocimiento de voz es ya una realidad y la síntesis de voz es un estándar industrial. Todos estos progresos tienen su piedra angular en la voz como dato. Colecciones de voz se emplean para entrenar modelos y mejorar la tecnología. Estas realidades, la voz como conocimiento lingüístico y la voz como dato, hacen de la voz un recurso inestimable para la actual generación y su tecnología, y para las futuras generaciones, para llegar a conocernos como nunca antes. En esta ponencia exploraré el estado actual de la voz como dato abierto para el español, los esfuerzos internacionales para conservar el lenguaje, los esfuerzos para mantener la voz abierta y las plataformas actuales que contienen las mayores colecciones de registros de voz y qué podemos hacer para abrirlas. Por último, presentaremos nuestra experiencia para recopilar registros de voz y las experiencias relacionadas.

Martin Krallinger

Centro Nacional de Investigaciones Oncológicas (CNIO).
Título: OpenMinted: una infraestructura-e abierta orientada a servicios para minería de datos y textos (TDM) de contenido científico y académico.
Resumen: Los últimos años son testigos de un aumento de las cantidades de datos digitales de investigación que ofrecen nuevas perspectivas y oportunidades para una comprensión más profunda. La minería de datos y textos se está convirtiendo en una herramienta poderosa para aprovechar la potencialidades contenidas en los datos estructurados y no estructurados, analizándolos en múltiples niveles y varias dimensiones para descubrir el conocimiento oculto y nuevo. Sin embargo, las soluciones de minería de texto no son fáciles de descubrir y utilizar, ni son fácilmente combinables por los usuarios finales. OpenMinTeD aspira a crear una infraestructura que promueva y facilite el uso de las tecnologías de minería de textos en el mundo publicaciones científicas. Se basa en herramientas y plataformas de minería de textos existentes, y las hace visibles e interoperables a través de registros apropiados y una capa de interoperabilidad basada en estándares. Es compatible con la formación de los usuarios de minería de texto y desarrolladores por igual y demuestra los méritos del enfoque través de varios casos de uso identificados por los expertos de diferentes ámbitos científicos, que van desde la comunicación académica genérica a la literatura relacionada con las ciencias de la vida, la alimentación y la agricultura, y las ciencias sociales y las humanidades. A través de sus actividades de infraestructura, la visión de OpenMinTeD es que se ponga en funcionamiento un ciclo virtuoso en el que a) se acceda al contenido principal a través de interfaces y reglas de acceso estandarizadas b) por servicios de minería de textos bien documentados y accesibles que procesen, analicen y realicen anotaciones de texto c) para identificar patrones y extraer nuevo conocimiento significativo, que será utilizado d) para estructurar, indexar y buscar contenido y, al mismo tiempo, e) actuar como nuevo conocimiento útil para dibujar nuevas relaciones entre los elementos de contenido y disparar un nuevo ciclo de la minería.

Antonia Ferrer Sapena y Tony Hernández

Miembros del grupo de investigación MAREDATA.
Título: Retos del acceso abierto a la documentación y a los datos científicos.
Resumen: Desde la “República de las Cartas” la Ciencia ha florecido en el intercambio abierto de ideas y datos. Sin embargo, hoy, ese intercambio abierto de datos e información científica se enfrenta a importantes retos sociales, económicos, legales y técnicos. A la vez, dispone de nuevas oportunidades, como las que ofrecen las tecnologías del lenguaje.

Jorge Gracia

Investigador posdoctoral en el departamento de Inteligencia Artificial de la Universidad Politécnica de Madrid. Miembro del Open Knowledge Foundation’s Working Group on Open Data in Linguistics.
Título: Hacia una nube de Datos Abiertos Lingüísticos Enlazados (LLOD).
Resumen: Los beneficios de compartir información lingüística como datos enlazados (LD) en la Web han sido reconocidos por la comunidad de recursos lingüísticos. La nube de Datos Abiertos Lingüísticos Enlazados (LLOD) emerge como resultado de enlazar recursos abiertos y multilingües. Se trata de un nuevo ecosistema lingüístico basado en los principios LD que permitirá la explotación abierta de estos datos a escala mundial. Esta ponencia tratará sobre la emergencia de la nube LLOD y sobre el conjunto de directrices y buenas prácticas elaborado por la comunidad para apoyar esta iniciativa.

Políticas Públicas

Márta Nagy-Rothengass

Directora de la unidad “Data Value Chain“, Comisión Europea.
Título: Datos Abiertos y Tecnologías del Lenguaje. La visión de la Comisión Europea. El caso de uso de la plataforma de traducción automática CEF.
Resumen: en el marco de la estrategia del Mercado Digital Único, el objetivo en poner en marcho un círculo virtuoso de los datos. Esto incluye una Estrategia de Datos Abiertos Multilingües.Un ejemplo relevante del valor de los Datos Abiertos para las Tecnologías del Lenguaje son las memorias de traducción de la Dirección General de Tradución de la Comisión Europea (https://open-data.europa.eu/es/data/), que es el conjunto de datos más descargado del portal de datos abiertos de la Unión Europea.CEF.AT es una plataforma de traducción automática que hará multilingües los servicios públicos europeos con el propósito de hacer los servicios públicos digitales igualmente accesibles a todos los ciudadanos europeos independientemente de su lengua de trabajo y sus habilidades lingüísticas, y para facilitar el intercambio de información transfronterizo en la administración pública.

David Pérez

Adviser to the Secretary of State for Telecommunications and Information Society, Spain.
Título: El Plan de Impulso de las Tecnologías del Lenguaje.
Resumen: El Plan de Impulso de las Tecnologías del Lenguaje pretende desarrollar el sector del procesamiento de lenguaje natural y la traducción automática en España. Parte de una evaluación de la situación que puede resumirse así: alto potencial de crecimiento y desarrollo, oportunidad única, y recursos disponibles, pero dispersos. Comprende un amplio espectro de medidas. Entre ellas está la generación, estandarización y distribución de recursos lingüísticos abiertos útiles para las tecnologías del lenguaje, principal, pero no exclusivamente, en el ámbito de la Política de Reutilización de la Información del Sector Público (RISP).