PAN 2011 - Detección de plagio

Campaña

Nombre de la campaña

PAN 2011 @ CLEF

Nombre de la tarea

Plagiarism detection

Tipo de tarea

Evaluación de sistemas de clasificación automática: plagio vs. no plagio

Descripción de la tarea

Dado un conjunto de documentos (en inglés) y unos documentos fuentes (en inglés, español y alemán), la tarea consiste en encontrar todos los fragmentos de textos que han sido plagiados y los correspondientes fragmentos en los documentos fuente. Dos han sido las subtareas: detección externa de plagio (a partir de los documentos fuente) y detección intrínseca de plagio (analizando el cambio de estilo en el documento sospechoso). 

Categoría de la tarea

Procesamiento del lenguaje natural, traducción automática (plagio monolingüe y translingüe)

Fecha evento / edición

2011 - https://pan.webis.de/clef11/pan11-web/plagiarism-detection.html

Organizadores
  • Martin Potthast, Benno Stein, Andreas Eiselt - Bauhaus-Universität Weimar, Alemania
  • Alberto Barrón-Cedeño, Paolo Rosso – Universitat Politècnica de València, España
Grupos destinatarios

Abierto a quien quiera participar: han participado grupos de investigación académicos y de institutos de investigación, así como del detector de plagio Ferret.

Elegibilidad

Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review) 

Calendario
  • 15/03/2011: Training set
  • 16/05/2011: Test set
  • 08/06/2011: Envío de softwares
  • 15/06/2011: Notificación de resultados
  • 17/07/2011: Envío de artículos
  • 29/07/2011: Envío notificación
  • 14/08/2011: Envío versión camera ready
  • 19-22/09/2011: Conferencia
Número de participantes

11 equipos (~33 personas)

Número de participantes de España

1 equipo (2 personas)

Dominio

El corpus está compuesto por 26.939 documentos y 61. 064 casos de plagio (libros del proyecto Gutenberg). En comparación a la tarea de los años anteriores, el corpus contiene más casos de plagio con paráfrasis. 

Idiomas

lnglés (documentos fuente en inglés, español y alemán)

Datos

Datos de entrenamiento
  • Documentos en inglés que pueden contener fragmentos de textos plagiados y documentos fuente en inglés, así como en español y alemán, desde los cuales fragmentos de textos pueden haber sido copiado, parafraseado y traducido al inglés.
  • Distribuido como XML
Derecho de redistribución de datos

Sólo para investigación

Enlace a datasets

https://pan.webis.de/data.html

Resultados

Métrica de evaluación

Plagdet: combinación entre precisión y recall (a nivel de caracteres) y granularidad.

Rendimiento
  • Subtarea de detección externa de plagio: 0.56
  • Subtarea de detección intrínseca de plagio: 0.32
Disponibilidad del código

-

Tipo de ejecución

Local

Número total de resultados enviados

14 (miembros de tres equipos han participado en las dos subtareas)

Resultados con los rankings

Martin Potthast, Andreas Eiselt, Alberto Barrón-Cedeño, Benno Stein, and Paolo Rosso. Overview of the 3rd International Competition on Plagiarism Detection. In Vivien Petras, Pamela Forner, and Paul D. Clough, editors, Working Notes Papers of the CLEF 2011 Evaluation Labs, September 2011

http://ceur-ws.org/Vol-1177/CLEF2011wn-PAN-PotthastEt2011a.pdf [PDF ]

Volumen de publicación

vol. 1177, CEUR-WS.org (441 citas a 15/10/2018) 

Gestión web de usuarios

Atención a participantes

Email: pan@webis.de

Google Groups