Detección de similitud de contenido

La detección de plagio o la detección de similitud de contenido es el proceso de localizar casos de plagio o infracción de derechos de autor dentro de una obra o documento. El uso generalizado de las computadoras y la llegada de Internet han facilitado el plagio del trabajo de otros. ^[1]^[2]

La detección del plagio se puede realizar de diversas formas. La detección humana es la forma más tradicional de identificar el plagio del trabajo escrito. Esta puede ser una tarea larga y que consume mucho tiempo para el lector ^[2] y también puede resultar en inconsistencias en cómo se identifica el plagio dentro de una organización. ^{[3] El} software de coincidencia de texto (TMS), que también se conoce como "software de detección de plagio" o software "antiplagio", se ha vuelto ampliamente disponible, tanto en forma de productos disponibles comercialmente como de código abierto ^{[ ejemplos necesarios ]} software. TMS en realidad no detecta el plagio per se, sino que encuentra pasajes específicos de texto en un documento que coinciden con el texto de otro documento.

Detección de plagio asistida por software

La detección de plagio asistida por computadora (CaPD) es una tarea de recuperación de información (IR) respaldada por sistemas de IR especializados, que se conoce como sistema de detección de plagio (PDS) o sistema de detección de similitud de documentos. Una revisión sistemática de la literatura de 2019 ^[4] presenta una descripción general de los métodos de detección de plagio de última generación.

En documentos de texto

Los sistemas para la detección de similitudes de texto implementan uno de dos enfoques de detección genéricos, uno externo y el otro intrínseco. ^[5] Los sistemas de detección externos comparan un documento sospechoso con una colección de referencia, que es un conjunto de documentos que se supone que son genuinos. ^[6] Basado en un modelo de documento elegido y criterios de similitud predefinidos, la tarea de detección es recuperar todos los documentos que contienen texto que es similar en un grado por encima de un umbral elegido al texto en el documento sospechoso. ^[7] Los PDS intrínsecos analizan únicamente el texto que se va a evaluar sin realizar comparaciones con documentos externos. Este enfoque tiene como objetivo reconocer los cambios en el estilo de escritura único de un autor como indicador de un posible plagio. ^[8]^{[9] Los} PDS no son capaces de identificar de manera confiable el plagio sin juicio humano. Las similitudes y las características del estilo de escritura se calculan con la ayuda de modelos de documentos predefinidos y pueden representar falsos positivos. ^[10]^[11]^[12]^[13]^[14]

Efectividad de esas herramientas en entornos de educación superior

Se realizó un estudio para probar la efectividad del software de detección de similitudes en un entorno de educación superior. Una parte del estudio asignó a un grupo de estudiantes a escribir un artículo. Estos estudiantes fueron educados primero sobre el plagio y se les informó que su trabajo se ejecutaría a través de un sistema de detección de similitud de contenido. Se asignó a un segundo grupo de estudiantes a escribir un artículo sin ninguna información sobre plagio. Los investigadores esperaban encontrar tasas más bajas en el grupo uno, pero encontraron aproximadamente las mismas tasas de plagio en ambos grupos. ^[15]

Enfoques

La siguiente figura representa una clasificación de todos los enfoques de detección que se utilizan actualmente para la detección de similitudes de contenido asistida por computadora. Los enfoques se caracterizan por el tipo de evaluación de similitudes que realizan: global o local. Los enfoques de evaluación de similitud global utilizan las características tomadas de partes más grandes del texto o del documento en su conjunto para calcular la similitud, mientras que los métodos locales solo examinan segmentos de texto preseleccionados como entrada.

Clasificación de los métodos de detección de plagio asistidos por computadora

Toma de huellas dactilares

La toma de huellas dactilares es actualmente el enfoque más utilizado para la detección de similitudes de contenido. Este método forma resúmenes representativos de documentos seleccionando un conjunto de múltiples subcadenas ( n-gramas ) de ellos. Los conjuntos representan las huellas dactilares y sus elementos se denominan minucias. ^[16]^[17] Un documento sospechoso se verifica en busca de plagio calculando su huella dactilar y consultando minucias con un índice precalculado de huellas dactilares para todos los documentos de una colección de referencia. Las minucias que coinciden con las de otros documentos indican segmentos de texto compartidos y sugieren un posible plagio si superan un umbral de similitud elegido. ^{[18] Los} recursos computacionales y el tiempo son factores limitantes para la toma de huellas digitales, por lo que este método generalmente solo compara un subconjunto de minucias para acelerar el cálculo y permitir verificaciones en colecciones muy grandes, como Internet. ^[dieciséis]

Coincidencia de cadenas

La concordancia de cadenas es un enfoque predominante utilizado en informática. Cuando se aplica al problema de la detección de plagio, los documentos se comparan en busca de superposiciones de texto textuales. Se han propuesto numerosos métodos para abordar esta tarea, algunos de los cuales se han adaptado a la detección externa de plagio. La verificación de un documento sospechoso en esta configuración requiere el cálculo y almacenamiento de representaciones comparables de manera eficiente para todos los documentos en la colección de referencia para compararlos por pares. Generalmente, para esta tarea se han utilizado modelos de documentos de sufijos, como árboles de sufijos o vectores de sufijos. No obstante, la coincidencia de subcadenas sigue siendo computacionalmente costosa, lo que la convierte en una solución no viable para verificar grandes colecciones de documentos. ^[19]^[20]^[21]

Bolsa de palabras

El análisis de bolsa de palabras representa la adopción de la recuperación del espacio vectorial , un concepto tradicional de IR, al dominio de la detección de similitudes de contenido. Los documentos se representan como uno o varios vectores, por ejemplo, para diferentes partes del documento, que se utilizan para cálculos de similitud por pares. El cálculo de la similitud puede depender entonces de la medida tradicional de similitud del coseno o de medidas de similitud más sofisticadas. ^[22]^[23]^[24]

Análisis de citas

La detección de plagio basada en citas (CbPD) ^{[25] se} basa en el análisis de citas y es el único enfoque para la detección de plagio que no se basa en la similitud textual. ^[26] CbPD examina la información de citas y referencias en los textos para identificar patrones similares en las secuencias de citas. Como tal, este enfoque es adecuado para textos científicos u otros documentos académicos que contienen citas. El análisis de citas para detectar plagio es un concepto relativamente joven. No ha sido adoptado por software comercial, pero existe un primer prototipo de un sistema de detección de plagio basado en citas. ^[27] El orden similar y la proximidad de las citas en los documentos examinados son los principales criterios utilizados para calcular las similitudes de los patrones de citas. Los patrones de citas representan subsecuencias que contienen citas no exclusivamente compartidas por los documentos comparados. ^[26]^[28] Los factores, incluido el número absoluto o la fracción relativa de citas compartidas en el patrón, así como la probabilidad de que las citas coexistan en un documento, también se consideran para cuantificar el grado de similitud de los patrones. ^[26]^[28]^[29]^[30]

Estilometria

La estilometría incluye métodos estadísticos para cuantificar el estilo de escritura único de un autor ^[31]^[32] y se utiliza principalmente para la atribución de autoría o la detección de plagio intrínseco. ^[33] Detectar el plagio por atribución de autoría requiere comprobar si el estilo de redacción del documento sospechoso, que supuestamente está escrito por un determinado autor, coincide con el de un corpus de documentos escritos por el mismo autor. La detección de plagio intrínseco, por otro lado, descubre el plagio basado en evidencias internas en el documento sospechoso sin compararlo con otros documentos. Esto se realiza construyendo y comparando modelos estilométricos para diferentes segmentos de texto del documento sospechoso, y los pasajes que son estilísticamente diferentes de otros se marcan como potencialmente plagiados / infringidos. ^[8] Aunque son fáciles de extraer, se ha demostrado que los n-gramas de caracteres se encuentran entre las mejores características estilométricas para la detección de plagio intrínseco. ^[34]

Actuación

Las evaluaciones comparativas de los sistemas de detección de similitud de contenido ^[6]^[35]^[36]^[37]^[38]^[39] indican que su desempeño depende del tipo de plagio presente (ver figura). A excepción del análisis de patrones de citas, todos los enfoques de detección se basan en la similitud textual. Por lo tanto, es sintomático que la precisión de la detección disminuya cuanto más se ofusquen los casos de plagio.

Rendimiento de detección de enfoques de CaPD según el tipo de plagio presente

Las copias literales, también conocidas como copiar y pegar (c & p), el plagio o la infracción flagrante de los derechos de autor, o los casos de plagio modestamente disfrazados pueden detectarse con alta precisión mediante los PDS externos actuales si la fuente es accesible para el software. Especialmente los procedimientos de coincidencia de subcadenas logran un buen rendimiento para el plagio de c & p, ya que comúnmente usan modelos de documentos sin pérdida, como árboles de sufijos . El rendimiento de los sistemas que utilizan huellas dactilares o análisis de bolsa de palabras para detectar copias depende de la pérdida de información incurrida por el modelo de documento utilizado. Al aplicar estrategias flexibles de fragmentación y selección, son más capaces de detectar formas moderadas de plagio disfrazado en comparación con los procedimientos de comparación de subcadenas.

La detección de plagio intrínseco mediante la estilometría puede superar los límites de la similitud textual hasta cierto punto al comparar la similitud lingüística. Dado que las diferencias estilísticas entre los segmentos plagiados y originales son significativas y pueden identificarse de manera confiable, la estilometría puede ayudar a identificar el plagio disfrazado y parafraseado ^{[ cita requerida ]} . Es probable que las comparaciones estilométricas fracasen en los casos en que los segmentos están fuertemente parafraseados hasta el punto en que se parecen más al estilo de escritura personal del plagiario o si un texto fue compilado por varios autores. Los resultados de los Concursos Internacionales de Detección de Plagio celebrados en 2009, 2010 y 2011, ^[6]^[38]^[39] , así como los experimentos realizados por Stein, ^[33] indican que el análisis estilométrico parece funcionar de manera confiable solo para documentos con longitudes de varios miles o decenas de miles de palabras, lo que limita la aplicabilidad del método a la configuración de CaPD.

Se realizan cada vez más investigaciones sobre métodos y sistemas capaces de detectar plagio traducido. Actualmente, la detección de plagio en varios idiomas (CLPD) no se considera una tecnología madura ^[40] y los sistemas respectivos no han podido lograr resultados de detección satisfactorios en la práctica. ^[37]

La detección de plagio basada en citas mediante el análisis de patrones de citas es capaz de identificar paráfrasis más fuertes y traducciones con mayores tasas de éxito en comparación con otros enfoques de detección, porque es independiente de las características textuales. ^[26]^[29] Sin embargo, dado que el análisis de patrones de citas depende de la disponibilidad de suficiente información de citas, se limita a los textos académicos. Sigue siendo inferior a los enfoques basados en texto para detectar pasajes plagiados más cortos, que son típicos de los casos de plagio de copiar y pegar o agitar y pegar; el último se refiere a la mezcla de fragmentos ligeramente alterados de diferentes fuentes. ^[41]

Software

El diseño de software de detección de similitud de contenido para su uso con documentos de texto se caracteriza por una serie de factores: ^{[ cita requerida ]}

Factor	Descripción y alternativas
Alcance de la búsqueda	En la Internet pública, utilizando motores de búsqueda / Bases de datos institucionales / Base de datos local, específica del sistema. ^{[ cita requerida ]}
Tiempo de análisis	Retraso entre el momento en que se envía un documento y el momento en que los resultados están disponibles. ^{[ cita requerida ]}
Capacidad de documentos / procesamiento por lotes	Número de documentos que el sistema puede procesar por unidad de tiempo. ^{[ cita requerida ]}
Comprobar la intensidad	Con qué frecuencia y para qué tipos de fragmentos de documentos (párrafos, oraciones, secuencias de palabras de longitud fija) el sistema consulta recursos externos, como motores de búsqueda.
Tipo de algoritmo de comparación	Los algoritmos que definen la forma en que el sistema utiliza para comparar documentos entre sí. ^{[ cita requerida ]}
Precisión y recuperación	Número de documentos marcados correctamente como plagiados en comparación con el número total de documentos marcados y con el número total de documentos que realmente fueron plagiados. Alta precisión significa que se encontraron pocos falsos positivos , y alta memoria significa que pocos falsos negativos quedaron sin detectar. ^{[ cita requerida ]}

La mayoría de los sistemas de detección de plagio a gran escala utilizan grandes bases de datos internas (además de otros recursos) que crecen con cada documento adicional que se envía para su análisis. Sin embargo, algunos consideran esta función como una violación de los derechos de autor de los estudiantes . ^{[ cita requerida ]}

En código fuente

El plagio en el código fuente de la computadora también es frecuente y requiere herramientas diferentes a las que se utilizan para las comparaciones de texto en un documento. Se ha dedicado una investigación significativa al plagio académico de códigos fuente. ^[42]

Un aspecto distintivo del plagio de código fuente es que no hay fábricas de ensayos , como las que se pueden encontrar en el plagio tradicional. Dado que la mayoría de las asignaciones de programación esperan que los estudiantes escriban programas con requisitos muy específicos, es muy difícil encontrar programas existentes que ya los cumplan. Dado que la integración de código externo a menudo es más difícil que escribirlo desde cero, la mayoría de los estudiantes que plagian optan por hacerlo de sus compañeros.

Según Roy y Cordy, ^[43] los algoritmos de detección de similitud de código fuente pueden clasificarse según

Cadenas: busque coincidencias textuales exactas de segmentos, por ejemplo, ejecuciones de cinco palabras. Rápido, pero puede confundirse al cambiar el nombre de los identificadores.
Tokens: como con las cadenas, pero usando un lexer para convertir el programa en tokens primero. Esto descarta los espacios en blanco, los comentarios y los nombres de los identificadores, lo que hace que el sistema sea más robusto para los reemplazos de texto simples. La mayoría de los sistemas de detección de plagio académicos funcionan en este nivel, utilizando diferentes algoritmos para medir la similitud entre las secuencias de tokens.
Analizar árboles : cree y compare árboles de análisis. Esto permite detectar similitudes de mayor nivel. Por ejemplo, la comparación de árboles puede normalizar declaraciones condicionales y detectar construcciones equivalentes como similares entre sí.
Gráficos de dependencia del programa (PDG): un PDG captura el flujo real de control en un programa y permite ubicar equivalencias de nivel mucho más alto, a un costo mayor en complejidad y tiempo de cálculo.
Métricas: las métricas capturan 'puntuaciones' de segmentos de código de acuerdo con ciertos criterios; por ejemplo, "el número de bucles y condicionales", o "el número de diferentes variables utilizadas". Las métricas son fáciles de calcular y se pueden comparar rápidamente, pero también pueden dar lugar a falsos positivos: dos fragmentos con las mismas puntuaciones en un conjunto de métricas pueden hacer cosas completamente diferentes.
Enfoques híbridos: por ejemplo, analizar árboles + árboles de sufijos pueden combinar la capacidad de detección de los árboles de análisis con la velocidad que ofrecen los árboles de sufijos, un tipo de estructura de datos de coincidencia de cadenas.

La clasificación anterior se desarrolló para la refactorización de código , y no para la detección de plagio académico (un objetivo importante de la refactorización es evitar el código duplicado, lo que se conoce como clones de código en la literatura). Los enfoques anteriores son efectivos contra diferentes niveles de similitud; La similitud de bajo nivel se refiere a texto idéntico, mientras que la similitud de alto nivel puede deberse a especificaciones similares. En un entorno académico, cuando se espera que todos los estudiantes codifiquen con las mismas especificaciones, se espera por completo un código funcionalmente equivalente (con similitud de alto nivel), y solo la similitud de bajo nivel se considera como prueba de trampa.

Complicaciones con el uso de software de coincidencia de texto para la detección de plagio

Se han documentado varias complicaciones con el uso de software de coincidencia de texto cuando se utiliza para la detección de plagio. Una de las preocupaciones más prevalentes documentadas se centra en el tema de los derechos de propiedad intelectual. El argumento básico es que los materiales deben agregarse a una base de datos para que el TMS determine efectivamente una coincidencia, pero agregar materiales de los usuarios a dicha base de datos puede infringir sus derechos de propiedad intelectual. La cuestión se ha planteado en varios casos judiciales.

Una complicación adicional con el uso de TMS es que el software solo encuentra coincidencias precisas con otro texto. No recoge el trabajo mal parafraseado, por ejemplo, o la práctica de plagiar mediante el uso de suficientes sustituciones de palabras para eludir el software de detección, lo que se conoce como rogeting .

Ver también

Categoría: Detectores de plagio
Comparación de software antiplagio
Hash sensible a la localidad
Búsqueda de vecino más cercano
Detección de paráfrasis
Complejidad de Kolmogorov # Compresión : se utiliza para estimar la similitud entre secuencias de tokens en varios sistemas.

Referencias

^ "Límite de descarga excedido" . citeseerx.ist.psu.edu .
↑ a b Bretag, T. y Mahmud, S. (2009). Un modelo para determinar el plagio de los estudiantes: detección electrónica y juicio académico. Revista de práctica universitaria de enseñanza y aprendizaje, 6 (1). Obtenido de http://ro.uow.edu.au/jutlp/vol6/iss1/6
^ Macdonald, R. y Carroll, J. (2006). Plagio: un tema complejo que requiere un enfoque institucional holístico. Assessment & Evaluation in Higher Education, 31 (2), 233–245. doi : 10.1080 / 02602930500262536
^ Foltýnek, Tomáš; Meuschke, normando; Gipp, Bela (16 de octubre de 2019). "Detección de plagio académico: una revisión sistemática de la literatura" . Encuestas de computación ACM . 52 (6): 1–42. doi : 10.1145 / 3345317 .
^ Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (diciembre de 2007), "Análisis de plagio, identificación de autoría y detección de casi duplicados PAN'07" (PDF) , Foro SIGIR , 41 (2): 68, doi : 10.1145 / 1328964.1328976 , S2CID 6379659 , archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ a b c Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), "Resumen del 1er Concurso Internacional de Detección de Plagio", PAN09 - 3er Taller sobre Descubrimiento de Plagio, Autoría y Uso Indebido del Software Social y 1er Concurso Internacional de Detección de Plagio (PDF) , Actas del Taller CEUR, 502 , pp 1–9, ISSN 1613-0073 , archivado desde el original (PDF) el 2 de abril de 2012
^ Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin (2007), "Estrategias para recuperar documentos plagiados", Actas de la 30ª Conferencia Anual Internacional ACM SIGIR (PDF) , ACM, págs. 825–826, doi : 10.1145 / 1277741.1277928 , ISBN 978-1-59593-597-7, S2CID 3898511 , archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ a b Meyer zu Eissen, Sven; Stein, Benno (2006), "Intrinsic Plagiarism Detection", Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, Londres, Reino Unido, 10 al 12 de abril de 2006 Actas (PDF) , Lecture Notes in Computer Science, 3936 , Springer, págs. 565–569, CiteSeerX 10.1.1.110.5366 , doi : 10.1007 / 11735106_66 , ISBN 978-3-540-33347-0, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ Bensalem, Imene (2020). "Detección de plagio intrínseco: una encuesta". Detección de plagio: enfoque en el enfoque intrínseco y la evaluación en lengua árabe (tesis doctoral) . Universidad Constantine 2. doi : 10.13140 / RG.2.2.25727.84641 .
^ Bao, Jun-Peng; Malcolm, James A. (2006), "Text similarity in academic conference papers", 2nd International Plagiarism Conference Proceedings (PDF) , Northumbria University Press, archivado desde el original (PDF) el 16 de septiembre de 2018 , consultado el 7 de octubre de 2011
^ Clough, Paul (2000), Plagio en lenguajes naturales y de programación: una descripción general de las herramientas y tecnologías actuales (PDF) (Informe técnico), Departamento de Ciencias de la Computación, Universidad de Sheffield, archivado desde el original (PDF) el 18 de agosto de 2011
^ Culwin, Fintan; Lancaster, Thomas (2001), "Problemas de plagio para la educación superior" (PDF) , Vine , 31 (2): 36–41, doi : 10.1108 / 03055720010804005 , archivado desde el original (PDF) el 5 de abril de 2012
^ Lancaster, Thomas (2003), Detección de plagio eficaz y eficiente (Tesis de doctorado), Facultad de Computación, Sistemas de Información y Matemáticas South Bank University
^ Maurer, Hermann; Zaka, Bilal (2007), "Plagio: un problema y cómo combatirlo", Actas de la Conferencia mundial sobre multimedia educativa, hipermedia y telecomunicaciones 2007 , AACE, págs. 4451–4458
^ Youmans, Robert J. (noviembre de 2011). "¿La adopción de software de detección de plagio en la educación superior reduce el plagio?". Estudios de Educación Superior . 36 (7): 749–761. doi : 10.1080 / 03075079.2010.523457 . S2CID 144143548 .
^ a b Hoad, Timothy; Zobel, Justin (2003), "Métodos para identificar documentos versionados y plagiados" (PDF) , Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información , 54 (3): 203–215, CiteSeerX 10.1.1.18.2680 , doi : 10.1002 /asi.10170 , archivado desde el original (PDF) el 30 de abril de 2015 , consultado el 14 de octubre de 2014
^ Stein, Benno (julio de 2005), "Huellas dactilares difusas para la recuperación de información basada en texto", Actas de I-KNOW '05, 5ª Conferencia internacional sobre gestión del conocimiento, Graz, Austria (PDF) , Springer, Know-Center, págs. .572–579, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ Brin, Sergey; Davis, James; García-Molina, Héctor (1995), "Mecanismos de detección de copias para documentos digitales", Actas de la Conferencia internacional ACM SIGMOD sobre gestión de datos de 1995 (PDF) , ACM, págs. 398–409, CiteSeerX 10.1.1.49.1567 , doi : 10.1145 / 223784.223855 , ISBN 978-1-59593-060-6, S2CID 8652205
^ Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), "Document Overlap Detection System for Distributed Digital Libraries", Actas de la quinta conferencia de ACM sobre bibliotecas digitales (PDF) , ACM, págs. 226–227, doi : 10.1145 / 336597.336667 , ISBN 978-1-58113-231-1, S2CID 5796686 , archivado desde el original (PDF) el 15 de abril de 2012 , consultado el 7 de octubre de 2011
^ Baker, Brenda S. (febrero de 1993), On Finding Duplication in Strings and Software (Technical Report), AT&T Bell Laboratories, NJ, archivado desde el original (gs) el 30 de octubre de 2007
^ Khmelev, Dmitry V .; Teahan, William J. (2003), "A Repetition Based Measure for Verification of Text Collections and for Text Categorization", SIGIR'03: Actas de la 26a conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en la recuperación de información , ACM, págs. 104–110 , CiteSeerX 10.1.1.9.6155 , doi : 10.1145 / 860435.860456 , ISBN 978-1581136463, S2CID 7316639
^ Si, Antonio; Leong, Hong Va; Lau, Rynson WH (1997), "CHECK: A Document Plagiarism Detection System", SAC '97: Actas del simposio ACM de 1997 sobre informática aplicada (PDF) , ACM, págs. 70–77, doi : 10.1145 / 331697.335176 , ISBN 978-0-89791-850-3, S2CID 15273799
^ Dreher, Heinz (2007), "Análisis conceptual automático para la detección del plagio" (PDF) , Information and Beyond: The Journal of Issues in Informing Science and Information Technology , 4 : 601–614, doi : 10.28945 / 974
^ Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael (2009), "Detección de plagio externo e intrínseco mediante modelos de espacio vectorial", PAN09 - 3er Taller sobre detección de plagio, autoría y uso indebido del software social y 1er Concurso internacional de detección de plagio (PDF) , Actas del taller de CEUR, 502 , págs. 47–55 , ISSN 1613-0073 , archivado desde el original (PDF) el 2 de abril de 2012
^ Gipp, Bela (2014), Detección de plagio basada en citas , Springer Vieweg Research, ISBN 978-3-658-06393-1
^ a b c d Gipp, Bela; Beel, Jöran (junio de 2010), "Detección de plagio basada en citas: un nuevo enfoque para identificar el lenguaje de trabajo plagiado de forma independiente", Actas de la 21ª Conferencia de ACM sobre hipertexto e hipermedia (HT'10) (PDF) , ACM, págs. 273– 274, doi : 10.1145 / 1810617.1810671 , ISBN 978-1-4503-0041-4, S2CID 2668037 , archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 21 de octubre de 2011
^ Gipp, Bela; Meuschke, normando; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas (28 de julio de 2013), "Demostración del análisis de patrones de citas para la detección de plagio", Actas de la 36ª Conferencia Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información (PDF) , ACM, p. 1119, doi : 10.1145 / 2484028.2484214 , ISBN 9781450320344, S2CID 2106222
^ a b Gipp, Bela; Meuschke, Norman (septiembre de 2011), "Algoritmos de coincidencia de patrones de citas para la detección de plagio basado en citas: mosaico codicioso de citas, fragmentación de citas y la secuencia de citas común más larga", Actas del 11 ° Simposio de ACM sobre ingeniería de documentos (DocEng2011) (PDF) , ACM , págs. 249-258, doi : 10.1145 / 2034691.2034741 , ISBN 978-1-4503-0863-2, S2CID 207190305 , archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 7 de octubre de 2011
^ a b Gipp, Bela; Meuschke, normando; Beel, Jöran (junio de 2011), "Evaluación comparativa de enfoques de detección de plagio basados en textos y citas utilizando GuttenPlag", Actas de la 11a Conferencia conjunta ACM / IEEE-CS sobre bibliotecas digitales (JCDL'11) (PDF) , ACM, págs. . 255–258, CiteSeerX 10.1.1.736.4865 , doi : 10.1145 / 1998076.1998124 , ISBN 978-1-4503-0744-4, S2CID 3683238 , archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 7 de octubre de 2011
^ Gipp, Bela; Beel, Jöran (julio de 2009), "Análisis de proximidad de citas (CPA): un nuevo enfoque para identificar el trabajo relacionado basado en el análisis de citas conjuntas", Actas de la 12ª Conferencia Internacional sobre Cienciometría e Informática (ISSI'09) (PDF) , International Society for Scientometrics and Informetrics, págs. 571–575, ISSN 2175-1935 , archivado desde el original (PDF) el 13 de septiembre de 2012 , consultado el 7 de octubre de 2011
^ Holmes, David I. (1998), "The Evolution of Stylometry in Humanities Scholarship", Computación literaria y lingüística , 13 (3): 111-117, doi : 10.1093 / llc / 13.3.111
^ Juola, Patrick (2006), "Atribución de autoría" (PDF) , Fundamentos y tendencias en la recuperación de información , 1 (3): 233–334, CiteSeerX 10.1.1.219.1605 , doi : 10.1561 / 1500000005 , ISSN 1554-0669
^ a b Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), "Intrinsic Plagiarism Analysis" (PDF) , Language Resources and Evaluation , 45 (1): 63–82, doi : 10.1007 / s10579-010-9115-y , ISSN 1574-020X , S2CID 13426762 , archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011
^ Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). "Sobre el uso de caracteres n-gramas como única evidencia intrínseca de plagio". Recursos lingüísticos y evaluación . 53 (3): 363–396. doi : 10.1007 / s10579-019-09444-w . hdl : 10251/159151 . S2CID 86630897 .
^ Portal Plagiat - Softwaretest 2004 (en alemán), HTW University of Applied Sciences Berlin, archivado desde el original el 25 de octubre de 2011 , consultado el 6 de octubre de 2011
^ Portal Plagiat - Softwaretest 2008 (en alemán), HTW University of Applied Sciences Berlin , consultado el 6 de octubre de 2011
^ a b Portal Plagiat - Softwaretest 2010 (en alemán), HTW University of Applied Sciences Berlin , consultado el 6 de octubre de 2011
^ a b Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), "Resumen del 2do Concurso Internacional de Detección de Plagio", Cuadernos de Trabajo de los Laboratorios y Talleres de CLEF 2010, 22-23 de septiembre, Padua, Italia (PDF) , archivado desde el original (PDF) el 3 de abril 2012 , consultado el 7 de octubre de 2011
^ a b Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Resumen del 3er Concurso Internacional de Detección de Plagio", Cuadernos de Laboratorios y Talleres de CLEF 2011, 19-22 de septiembre, Ámsterdam, Países Bajos (PDF) , archivado desde el original (PDF) el 2 de abril 2012 , consultado el 7 de octubre de 2011
^ Potthast, Martin; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Cross-Language Plagiarism Detection" (PDF) , Language Resources and Evaluation , 45 (1): 45–62, doi : 10.1007 / s10579-009-9114-z , hdl : 10251/37479 , ISSN 1574-020X , S2CID 14942239 , archivado desde el original (PDF) el 26 de noviembre de 2013 , consultado el 7 de octubre de 2011
^ Weber-Wulff, Debora (junio de 2008), "Sobre la utilidad del software de detección de plagio", en las actas de la 3ª Conferencia Internacional de Plagio, Newcastle Upon Tyne (PDF)
^ "Prevención y detección de plagio: recursos en línea sobre el plagio de código fuente" Archivado el 15 de noviembre de 2012 en Wayback Machine . Academia de Educación Superior , Universidad de Ulster .
^ Roy, Chanchal Kumar; Cordy, James R. (26 de septiembre de 2007). "Una encuesta sobre la investigación de detección de clones de software" . Escuela de Computación, Queen's University, Canadá .

Literatura

Carroll, J. (2002). Un manual para disuadir el plagio en la educación superior . Oxford: el Centro de Oxford para el Desarrollo del Aprendizaje y el Personal, Universidad de Oxford Brookes. (96 p.), ISBN 1873576560
Zeidman, B. (2011). El manual de software IP Detective . Prentice Hall. (480 págs.), ISBN 0137035330

[1] "Límite de descarga excedido" . citeseerx.ist.psu.edu .

[:0-2] Bretag, T. y Mahmud, S. (2009). Un modelo para determinar el plagio de los estudiantes: detección electrónica y juicio académico. Revista de práctica universitaria de enseñanza y aprendizaje, 6 (1). Obtenido de http://ro.uow.edu.au/jutlp/vol6/iss1/6

[3] Macdonald, R. y Carroll, J. (2006). Plagio: un tema complejo que requiere un enfoque institucional holístico. Assessment & Evaluation in Higher Education, 31 (2), 233–245. doi : 10.1080 / 02602930500262536

[4] Foltýnek, Tomáš; Meuschke, normando; Gipp, Bela (16 de octubre de 2019). "Detección de plagio académico: una revisión sistemática de la literatura" . Encuestas de computación ACM . 52 (6): 1–42. doi : 10.1145 / 3345317 .

[Stein07-5] Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (diciembre de 2007), "Análisis de plagio, identificación de autoría y detección de casi duplicados PAN'07" (PDF) , Foro SIGIR , 41 (2): 68, doi : 10.1145 / 1328964.1328976 , S2CID 6379659 , archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011

[Potthast09-6] Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), "Resumen del 1er Concurso Internacional de Detección de Plagio", PAN09 - 3er Taller sobre Descubrimiento de Plagio, Autoría y Uso Indebido del Software Social y 1er Concurso Internacional de Detección de Plagio (PDF) , Actas del Taller CEUR, 502 , pp 1–9, ISSN 1613-0073 , archivado desde el original (PDF) el 2 de abril de 2012

[Stein07a-7] Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin (2007), "Estrategias para recuperar documentos plagiados", Actas de la 30ª Conferencia Anual Internacional ACM SIGIR (PDF) , ACM, págs. 825–826, doi : 10.1145 / 1277741.1277928 , ISBN 978-1-59593-597-7, S2CID 3898511 , archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011

[MeyerZuEissen06-8] Meyer zu Eissen, Sven; Stein, Benno (2006), "Intrinsic Plagiarism Detection", Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, Londres, Reino Unido, 10 al 12 de abril de 2006 Actas (PDF) , Lecture Notes in Computer Science, 3936 , Springer, págs. 565–569, CiteSeerX 10.1.1.110.5366 , doi : 10.1007 / 11735106_66 , ISBN 978-3-540-33347-0, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011

[9] Bensalem, Imene (2020). "Detección de plagio intrínseco: una encuesta". Detección de plagio: enfoque en el enfoque intrínseco y la evaluación en lengua árabe (tesis doctoral) . Universidad Constantine 2. doi : 10.13140 / RG.2.2.25727.84641 .

[Bao06-10] Bao, Jun-Peng; Malcolm, James A. (2006), "Text similarity in academic conference papers", 2nd International Plagiarism Conference Proceedings (PDF) , Northumbria University Press, archivado desde el original (PDF) el 16 de septiembre de 2018 , consultado el 7 de octubre de 2011

[Clough00-11] Clough, Paul (2000), Plagio en lenguajes naturales y de programación: una descripción general de las herramientas y tecnologías actuales (PDF) (Informe técnico), Departamento de Ciencias de la Computación, Universidad de Sheffield, archivado desde el original (PDF) el 18 de agosto de 2011

[Culwin01-12] Culwin, Fintan; Lancaster, Thomas (2001), "Problemas de plagio para la educación superior" (PDF) , Vine , 31 (2): 36–41, doi : 10.1108 / 03055720010804005 , archivado desde el original (PDF) el 5 de abril de 2012

[Lancaster03-13] Lancaster, Thomas (2003), Detección de plagio eficaz y eficiente (Tesis de doctorado), Facultad de Computación, Sistemas de Información y Matemáticas South Bank University

[Maurer07-14] Maurer, Hermann; Zaka, Bilal (2007), "Plagio: un problema y cómo combatirlo", Actas de la Conferencia mundial sobre multimedia educativa, hipermedia y telecomunicaciones 2007 , AACE, págs. 4451–4458

[Youmans-15] Youmans, Robert J. (noviembre de 2011). "¿La adopción de software de detección de plagio en la educación superior reduce el plagio?". Estudios de Educación Superior . 36 (7): 749–761. doi : 10.1080 / 03075079.2010.523457 . S2CID 144143548 .

[Hoad03-16] Hoad, Timothy; Zobel, Justin (2003), "Métodos para identificar documentos versionados y plagiados" (PDF) , Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información , 54 (3): 203–215, CiteSeerX 10.1.1.18.2680 , doi : 10.1002 /asi.10170 , archivado desde el original (PDF) el 30 de abril de 2015 , consultado el 14 de octubre de 2014

[Stein05-17] Stein, Benno (julio de 2005), "Huellas dactilares difusas para la recuperación de información basada en texto", Actas de I-KNOW '05, 5ª Conferencia internacional sobre gestión del conocimiento, Graz, Austria (PDF) , Springer, Know-Center, págs. .572–579, archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011

[Brin95-18] Brin, Sergey; Davis, James; García-Molina, Héctor (1995), "Mecanismos de detección de copias para documentos digitales", Actas de la Conferencia internacional ACM SIGMOD sobre gestión de datos de 1995 (PDF) , ACM, págs. 398–409, CiteSeerX 10.1.1.49.1567 , doi : 10.1145 / 223784.223855 , ISBN 978-1-59593-060-6, S2CID 8652205

[Monostori00-19] Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), "Document Overlap Detection System for Distributed Digital Libraries", Actas de la quinta conferencia de ACM sobre bibliotecas digitales (PDF) , ACM, págs. 226–227, doi : 10.1145 / 336597.336667 , ISBN 978-1-58113-231-1, S2CID 5796686 , archivado desde el original (PDF) el 15 de abril de 2012 , consultado el 7 de octubre de 2011

[Baker93-20] Baker, Brenda S. (febrero de 1993), On Finding Duplication in Strings and Software (Technical Report), AT&T Bell Laboratories, NJ, archivado desde el original (gs) el 30 de octubre de 2007

[Khmelev03-21] Khmelev, Dmitry V .; Teahan, William J. (2003), "A Repetition Based Measure for Verification of Text Collections and for Text Categorization", SIGIR'03: Actas de la 26a conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en la recuperación de información , ACM, págs. 104–110 , CiteSeerX 10.1.1.9.6155 , doi : 10.1145 / 860435.860456 , ISBN 978-1581136463, S2CID 7316639

[Si97-22] Si, Antonio; Leong, Hong Va; Lau, Rynson WH (1997), "CHECK: A Document Plagiarism Detection System", SAC '97: Actas del simposio ACM de 1997 sobre informática aplicada (PDF) , ACM, págs. 70–77, doi : 10.1145 / 331697.335176 , ISBN 978-0-89791-850-3, S2CID 15273799

[Dreher07-23] Dreher, Heinz (2007), "Análisis conceptual automático para la detección del plagio" (PDF) , Information and Beyond: The Journal of Issues in Informing Science and Information Technology , 4 : 601–614, doi : 10.28945 / 974

[Muhr09-24] Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael (2009), "Detección de plagio externo e intrínseco mediante modelos de espacio vectorial", PAN09 - 3er Taller sobre detección de plagio, autoría y uso indebido del software social y 1er Concurso internacional de detección de plagio (PDF) , Actas del taller de CEUR, 502 , págs. 47–55 , ISSN 1613-0073 , archivado desde el original (PDF) el 2 de abril de 2012

[Gipp14-25] Gipp, Bela (2014), Detección de plagio basada en citas , Springer Vieweg Research, ISBN 978-3-658-06393-1

[Gipp10-26] Gipp, Bela; Beel, Jöran (junio de 2010), "Detección de plagio basada en citas: un nuevo enfoque para identificar el lenguaje de trabajo plagiado de forma independiente", Actas de la 21ª Conferencia de ACM sobre hipertexto e hipermedia (HT'10) (PDF) , ACM, págs. 273– 274, doi : 10.1145 / 1810617.1810671 , ISBN 978-1-4503-0041-4, S2CID 2668037 , archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 21 de octubre de 2011

[Gipp13-27] Gipp, Bela; Meuschke, normando; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas (28 de julio de 2013), "Demostración del análisis de patrones de citas para la detección de plagio", Actas de la 36ª Conferencia Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información (PDF) , ACM, p. 1119, doi : 10.1145 / 2484028.2484214 , ISBN 9781450320344, S2CID 2106222

[Gipp11a-28] Gipp, Bela; Meuschke, Norman (septiembre de 2011), "Algoritmos de coincidencia de patrones de citas para la detección de plagio basado en citas: mosaico codicioso de citas, fragmentación de citas y la secuencia de citas común más larga", Actas del 11 ° Simposio de ACM sobre ingeniería de documentos (DocEng2011) (PDF) , ACM , págs. 249-258, doi : 10.1145 / 2034691.2034741 , ISBN 978-1-4503-0863-2, S2CID 207190305 , archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 7 de octubre de 2011

[Gipp11-29] Gipp, Bela; Meuschke, normando; Beel, Jöran (junio de 2011), "Evaluación comparativa de enfoques de detección de plagio basados en textos y citas utilizando GuttenPlag", Actas de la 11a Conferencia conjunta ACM / IEEE-CS sobre bibliotecas digitales (JCDL'11) (PDF) , ACM, págs. . 255–258, CiteSeerX 10.1.1.736.4865 , doi : 10.1145 / 1998076.1998124 , ISBN 978-1-4503-0744-4, S2CID 3683238 , archivado desde el original (PDF) el 25 de abril de 2012 , consultado el 7 de octubre de 2011

[Gipp09-30] Gipp, Bela; Beel, Jöran (julio de 2009), "Análisis de proximidad de citas (CPA): un nuevo enfoque para identificar el trabajo relacionado basado en el análisis de citas conjuntas", Actas de la 12ª Conferencia Internacional sobre Cienciometría e Informática (ISSI'09) (PDF) , International Society for Scientometrics and Informetrics, págs. 571–575, ISSN 2175-1935 , archivado desde el original (PDF) el 13 de septiembre de 2012 , consultado el 7 de octubre de 2011

[Holmes98-31] Holmes, David I. (1998), "The Evolution of Stylometry in Humanities Scholarship", Computación literaria y lingüística , 13 (3): 111-117, doi : 10.1093 / llc / 13.3.111

[Juola08-32] Juola, Patrick (2006), "Atribución de autoría" (PDF) , Fundamentos y tendencias en la recuperación de información , 1 (3): 233–334, CiteSeerX 10.1.1.219.1605 , doi : 10.1561 / 1500000005 , ISSN 1554-0669

[Stein11-33] Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), "Intrinsic Plagiarism Analysis" (PDF) , Language Resources and Evaluation , 45 (1): 63–82, doi : 10.1007 / s10579-010-9115-y , ISSN 1574-020X , S2CID 13426762 , archivado desde el original (PDF) el 2 de abril de 2012 , consultado el 7 de octubre de 2011

[34] Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). "Sobre el uso de caracteres n-gramas como única evidencia intrínseca de plagio". Recursos lingüísticos y evaluación . 53 (3): 363–396. doi : 10.1007 / s10579-019-09444-w . hdl : 10251/159151 . S2CID 86630897 .

[HTW04-35] Portal Plagiat - Softwaretest 2004 (en alemán), HTW University of Applied Sciences Berlin, archivado desde el original el 25 de octubre de 2011 , consultado el 6 de octubre de 2011

[HTW08-36] Portal Plagiat - Softwaretest 2008 (en alemán), HTW University of Applied Sciences Berlin , consultado el 6 de octubre de 2011

[HTW10-37] Portal Plagiat - Softwaretest 2010 (en alemán), HTW University of Applied Sciences Berlin , consultado el 6 de octubre de 2011

[Potthast10-38] Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), "Resumen del 2do Concurso Internacional de Detección de Plagio", Cuadernos de Trabajo de los Laboratorios y Talleres de CLEF 2010, 22-23 de septiembre, Padua, Italia (PDF) , archivado desde el original (PDF) el 3 de abril 2012 , consultado el 7 de octubre de 2011

[Potthast11-39] Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Resumen del 3er Concurso Internacional de Detección de Plagio", Cuadernos de Laboratorios y Talleres de CLEF 2011, 19-22 de septiembre, Ámsterdam, Países Bajos (PDF) , archivado desde el original (PDF) el 2 de abril 2012 , consultado el 7 de octubre de 2011

[Potthast10a-40] Potthast, Martin; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Cross-Language Plagiarism Detection" (PDF) , Language Resources and Evaluation , 45 (1): 45–62, doi : 10.1007 / s10579-009-9114-z , hdl : 10251/37479 , ISSN 1574-020X , S2CID 14942239 , archivado desde el original (PDF) el 26 de noviembre de 2013 , consultado el 7 de octubre de 2011

[Weber-Wulff08-41] Weber-Wulff, Debora (junio de 2008), "Sobre la utilidad del software de detección de plagio", en las actas de la 3ª Conferencia Internacional de Plagio, Newcastle Upon Tyne (PDF)

[42] "Prevención y detección de plagio: recursos en línea sobre el plagio de código fuente" Archivado el 15 de noviembre de 2012 en Wayback Machine . Academia de Educación Superior , Universidad de Ulster .

[43] Roy, Chanchal Kumar; Cordy, James R. (26 de septiembre de 2007). "Una encuesta sobre la investigación de detección de clones de software" . Escuela de Computación, Queen's University, Canadá .

[1]