PAN 2017 - Perfilado de autores

Campaña

Nombre de la campaña

PAN 2017 @ CLEF

Nombre de la tarea

Author Profiling: Gender and Language Variety Identification in Twitter.

Tipo de tarea

Evaluación de sistemas de clasificación automática (sexo y variedad del lenguaje)

Descripción de la tarea

Dado un texto escrito en Twitter, la tarea consiste en identificar de manera automática el sexo de su autor, y la variedad dialectal del idioma que habla.

Categoría de la tarea

Procesamiento del lenguaje natural

Fecha evento / edición

2016- https://pan.webis.de/clef17/pan17-web/author-profiling.html

Organizadores
  • Francisco Rangel - Autoritas, España
  • Paolo Rosso - Universitat Politècnica de València, España
  • Martin Potthast - Bauhaus-Universität Weimar, Alemania
  • Benno Stein - Bauhaus-Universität Weimar, Alemania
Grupos destinatarios

Abierto a quien quiera participar: han participado grupos de investigación académicos y de la industria

Elegibilidad

Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review)

Calendario
  • 11-14/09/2017: Conferencia
  • 15/03/2017: Early birds
  • 15/04/2017: Envío de softwares
  • 15/05/2017: Notificación de resultados
  • 25/06/2017: Envío de artículos
  • 15/07/2017: Registro a la conferencia
Número de participantes

22 equipos (~70 personas)

Número de participantes de España

11 personas en 1equipos

Dominio

Twitter, sin acotar a un dominio concreto.

Idiomas
  • Árabe (4 variedades)
  • Inglés (6 variedades)
  • Español (7 variedades)
  • Portugués (2 variedades)

Datos

Datos de entrenamiento Reviews
Autores en árabe 2400
 Autores en inglés 3600 
Autores en español 4200
Autores en portugués 1200

Distribuido como XML

Derecho de redistribución de datos

Sólo para investigación

Enlace a datasets

Resultados

Métrica de evaluación

Accuracy

Rendimiento

Twitter

Sexo

Árabe: 80,31%

Inglés: 82,33%

Español: 83,21%

Portugués: 87,00%

Variedad

Árabe: 83,13%

Inglés: 89,88%

Español: 96,21%

Portugués: 98,38%

Combinado

Árabe: 68,31%

Inglés: 74,29%

Español: 80,36%

Portugués: 85,75%

Disponibilidad del código

En algunos casos los participantes proporcionaron su código fuente vía GitHub (especificado en sus working notes)

Tipo de ejecución

Remoto - A los participantes se les facilita el acceso a una máquina virtual para la evaluación del entorno TIRA

Número total de resultados enviados

77

Resultados con los rankings

Rangel F., Rosso P., Potthast M., Stein B. (2017). Overview of the 5th Author Profiling Task at PAN 2017: Gender and Language Variety Identification in Twitter. In: Cappellato L., Ferro N., Goeuriot L, Mandl T. (Eds.) CLEF 2017 Labs and Workshops, Notebook Papers. CEUR Workshop Proceedings. CEUR-WS.org, vol. 1866.

http://ceur-ws.org/Vol-1866/invited_paper_11.pdf [PDF]

Volumen de publicación

vol. 1866, CEUR-WS.org (66 citas a 15/10/2018)

Gestión web de usuarios

Atención a participantes

Email: pan@webis.de

Google Groups