Campañas de Evaluación Plan TL: Convocatoria de participación en la tarea BARR2 - IberEval 2018

Tarea de reconocimiento y resolución de abreviaturas biomédicas, segunda edición (BARR2)

Taller de la SEPLN2018 , 18 de septiembre, Sevilla, España

Presentación de la tarea

Encontrar y resolver abreviaturas y símbolos es una tarea fundamental para la recuperación de información, la clasificación de textos, el reconocimiento de entidades nombradas o incluso para sistemas de traducción automática. Además, los enfoques para reconocer y resolver abreviaturas a menudo se pueden adaptar directamente a diferentes idiomas, lo que resulta en recursos de uso generalizado y alto impacto. Sin embargo, debido a la falta de corpus de resolución de abreviaturas anotados manualmente de manera exhaustiva, en particular para ciertos dominios clave, la evaluación y mejora de los sistemas de resolución de abreviaturas sigue siendo un campo activo de investigación.

En el caso de textos clínicos biomédicos, las abreviaturas son particularmente frecuentes, y a menudo se refieren a entidades y conceptos de importancia tales como enfermedades, tratamientos, síntomas, drogas o entidades biomoleculares. Los sistemas de PLN del ámbito clínico requieren un correcto reconocimiento y resolución de abreviaturas.

Sobre la base del éxito de la primera edición de la tarea BARR planteada en IberEval 2017 que cubrió la detección de relaciones entre formas cortas y formas largas en la literatura médica, la segunda edición BARR2 se centra en la detección de abreviaturas de informes de casos clínicos escritos en español. Con un número estimado de más de 500 millones de hispanohablantes en todo el mundo, el reconocimiento y la resolución de las abreviaturas en los textos clínicos en español es una tarea importante para las herramientas PNL del ámbito clínico en español.

La tarea BARR2 se estructurará en dos subtareas:

  • Subtarea 1: detección de apariciones explícitas de pares abreviatura-definición.
  • Subtarea 2: resolución de abreviaturas, independientemente de si sus definiciones se mencionan en el documento real.

La métrica de evaluación principal utilizada para la pista BARR2 consistirá en precisión, cobertura y medida-f de las predicciones en comparación con un corpus gold standard anotado manualmente.

Inscripción BARR2.

Fechas importantes

  • 20 de abril de 2018: publicación de datos de muestra.
  • 20 de abril de 2018: publicación de corpus de entrenamiento, texto no anotado.
  • 30 de abril de 2018: publicación de corpus de entrenamiento, texto anotado.
  • 10 de mayo de 2018: publicación de corpus de prueba.
  • 20 de mayo de 2018: presentación de los resultados.
  • 25 de mayo de 2018: publicación de resultados.
  • 11 de junio de 2018: descripción del sistema.
  • 1 de julio de 2018: evaluación de la descripción del sistema.
  • 15 de julio de 2018: versión final del artículo.
  • 18 de septiembre de 2018: Taller IberEval 2018.

Organización

  • Martin Krallinger, Biological Text Mining Unit (Bio-TeMUC), CNIO – Oficina Técnica de Sanidad del Plan TL.
  • Alfonso Valencia, Structural Computational Biology Group, CNIOOficina Técnica de Sanidad del Plan TL.
  • Núria Bel, UPF, Barcelona, Spain
  • Ander Intxaurrondo, Biological Text Mining Unit (Bio-TeMUC), CNIO – Oficina Técnica de Sanidad del Plan TL.
  • Marta Villegas, Barcelona Supercomputing Center (Bio-TeMUC), CNIO – Oficina Técnica de Sanidad del Plan TL.
  • Jose Antonio Lopez, Hospital 12 de Octubre, Madrid – Oficina Técnica de Sanidad del Plan TL.
  • Aitor Gonzalez-Agirre, Barcelona Supercomputing Center (Bio-TeMUC), CNIO – Oficina Técnica de Sanidad del Plan TL
  • Montserrat Marimon, Barcelona Supercomputing Center (Bio-TeMUC).

Consejo Asesor Científico

  • Sophia Ananiadou, Professor of the School of Computer Science, University of Manchester / Director of the National Centre for Text Mining (NaCTeM), UK
  • Hua Xu, Director of the Center for Computational Biomedicine, University of Texas Health Science Center at Houston, USA
  • Marius Doornenbal, Chief NLP Scientist, Elsevier Content & Innovation.
  • Saber Ahmad Akhondi, Principle NLP Scientist, Elsevier Content & Innovation.
  • Fernando A. Navarro, MD, Cosnauta, Siglas médicas en español; Founding member of TREMÉDICA, Spain.
  • Carlos Luis Parra Calderón, Head of Technological Innovation Section, University Hospital Virgen del Rocío; Director of biomedical informatics, Instituto de Biomedicina de Sevilla, Spain.