Corpus de programas de RTVE

03/07/2019

La Cátedra RTVE de la Universidad de Zaragoza publica el corpus de programas de RTVE que se utilizó para los retos de la Campaña IberSpeech 2018.

La Cátedra tiene como objetivo la automatización de parte del trabajo de documentación de contenidos audiovisuales y sonoros de RTVE, tanto en la fase de producción de programas como en la de archivo definitivo en los fondos documentales. El corpus de programas que se ha publicado fue utilizado en la Campaña IberSpeech 2018, contiene un total de 569 horas y 22 minutos de audio: 460 horas con los subtítulos y 109 horas transcritas por humanos.

Desde el Plan TL se quiere destacar la publicación de este corpus que puede ser de gran interés para la promoción del sector de los sistemas conversacionales.

Se licencia de forma gratuita y está disponible a través de la página de la Cátedra RTVE de la Universidad Zaragoza.