PAN 2012 - Detección de plagio

Campaña

Nombre de la campaña

PAN 2012 @ CLEF

Nombre de la tarea

Plagiarism detection

Tipo de tarea

Evaluación de sistemas de clasificación automática: plagio vs. no plagio

Descripción de la tarea

Dado un conjunto de documentos (en inglés) y unos documentos fuentes (en inglés, español y alemán), la tarea consiste en encontrar todos los fragmentos de textos que han sido plagiados y los correspondientes fragmentos en los documentos fuente. Dos han sido las subtareas: recuperación del documento(s) fuente desde donde se ha plagiado (source retrieval) y alineamiento de los fragmentos de texto del documento sospechoso que han sido plagiados con los fragmentos correspondientes del (los) documento(s) fuente (text alignment). 

Categoría de la tarea

Procesamiento del lenguaje natural, traducción automática (plagio monolingüe y translingüe)

Fecha evento / edición

2012 - https://pan.webis.de/clef12/pan12-web/plagiarism-detection.html

Organizadores
  • Martin Potthast, Tim Gollub, Matthias Hagen, Jan Graßegger, Johannes Kiesel, Maximilian Michel, Arnd Oberländer, Martin Tippmann, Benno Stein - Bauhaus-Universität Weimar, Alemania
  • Alberto Barrón-Cedeño – Universitat Politècnica de Catalunya, España
  • Parth Gupta, Paolo Rosso – Universitat Politècnica de València, España
Grupos destinatarios

Abierto a quien quiera participar: han participado grupos de investigación académicos y de institutos de investigación, así como del detector de plagio Ferret.

Elegibilidad

Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review) 

Calendario
  • 16/03/2009: Training set
  • 18/05/2009: Test set
  • 15/06/2009: Envío de softwares
  • 22/06/2009: Envío de artículos
  • 06/07/2009: Notificación de resultados
  • 06/07/2009: Envío notificación artículos
  • 17/08/2009: Envío versión camera ready
  • 17-20/09/2009: Conferencia
Número de participantes

11 equipos (~33 personas)

Número de participantes de España

1 equipo (2 persona)

Dominio

Libros del proyecto Gutenberg y corpus ClueWeb (topics del TREC Web Tracks 2009–2011 ). Los casos de plagio translingüe (ES, DE -> EN) han sido creado a partir del corpus multilingüe Europarl. 

Idiomas

lnglés (documentos fuente en inglés, español y alemán)

Datos

Datos de entrenamiento
  • Documentos en inglés que pueden contener fragmentos de textos plagiados y documentos fuente en inglés, así como en español y alemán, desde los cuales fragmentos de textos pueden haber sido copiado, parafraseado y traducido al inglés.
  • Distribuido como XML
Derecho de redistribución de datos

Sólo para investigación

Enlace a datasets

https://pan.webis.de/data.html

Resultados

Métrica de evaluación
  • Subtarea de source retrieval: precisión y recall
  • Subtarea de text alignment: plagdet, una combinación entre precisión y recall (a nivel de caracteres) y granularidad
Rendimiento
  • Subtarea de source retrieval: precisión 0.08, recall 0.56
  • Subtarea de text alignment: plagdet 0.74
Disponibilidad del código

-

Tipo de ejecución

Local

Número total de resultados enviados

15 (cuatro equipos han participado en las dos subtareas)

Resultados con los rankings

Martin Potthast, Tim Gollub, Matthias Hagen, Jan Graßegger, Johannes Kiesel, Maximilian Michel, Arnd Oberländer, Martin Tippmann, Alberto Barrón-Cedeño, Parth Gupta, Paolo Rosso, and Benno Stein. Overview of the 4th International Competition on Plagiarism Detection. In Pamela Forner, Jussi Karlgren, and Christa Womser-Hacker, editors, Working Notes Papers of the CLEF 2012 Evaluation Labs, September 2012.

http://ceur-ws.org/Vol-1178/CLEF2012wn-PAN-PotthastEt2012.pdf

Volumen de publicación

vol. 1178, CEUR-WS.org 

Gestión web de usuarios

Atención a participantes

Email: pan@webis.de

Google Groups