Calificación de ensayos automatizada

La calificación automática de ensayos ( AES ) es el uso de programas informáticos especializados para asignar calificaciones a los ensayos escritos en un entorno educativo. Es una forma de evaluación educativa y una aplicación del procesamiento del lenguaje natural . Su objetivo es clasificar un gran conjunto de entidades textuales en un número reducido de categorías discretas, correspondientes a las posibles calificaciones, por ejemplo, los números del 1 al 6. Por tanto, se puede considerar un problema de clasificación estadística .

Varios factores han contribuido a un creciente interés en AES. Entre ellos se encuentran el costo, la responsabilidad, los estándares y la tecnología. El aumento de los costos de la educación ha generado presiones para que el sistema educativo rinda cuentas de los resultados mediante la imposición de estándares. El avance de la tecnología de la información promete medir el rendimiento educativo a un costo reducido.

El uso de AES para pruebas de alto impacto en la educación ha generado una reacción violenta significativa, y los oponentes señalan la investigación de que las computadoras aún no pueden calificar la escritura con precisión y argumentan que su uso para tales fines promueve la enseñanza de la escritura de manera reductiva (es decir, enseñar para la prueba ).

Historia

La mayoría de los resúmenes históricos de AES rastrean los orígenes del campo hasta el trabajo de Ellis Batten Page . ^[1] En 1966, defendió ^[2] la posibilidad de puntuar ensayos por computadora, y en 1968 publicó ^[3] su exitoso trabajo con un programa llamado Project Essay Grade (PEG). Usando la tecnología de esa época, la puntuación de ensayos computarizada no habría sido rentable, ^[4] por lo que Page disminuyó sus esfuerzos durante aproximadamente dos décadas. Finalmente, Page vendió PEG a Measurement Incorporated

En 1990, las computadoras de escritorio se habían vuelto tan poderosas y tan extendidas que AES era una posibilidad práctica. Ya en 1982, un programa de UNIX llamado Writer's Workbench podía ofrecer consejos sobre puntuación, ortografía y gramática. ^[5] En colaboración con varias empresas (en particular Educational Testing Service), Page actualizó PEG y realizó algunas pruebas con éxito a principios de la década de 1990. ^[6]

Peter Foltz y Thomas Landauer desarrollaron un sistema que utiliza un motor de puntuación llamado Intelligent Essay Assessor (IEA). La IEA se utilizó por primera vez para calificar ensayos en 1997 para sus cursos de pregrado. ^[7] Ahora es un producto de Pearson Educational Technologies y se utiliza para calificar en una serie de productos comerciales y exámenes estatales y nacionales.

IntelliMetric es el motor AES de Vantage Learning. Su desarrollo comenzó en 1996. ^[8] Se utilizó por primera vez comercialmente para calificar ensayos en 1998. ^[9]

Educational Testing Service ofrece "e-rater", un programa automatizado de calificación de ensayos. Se usó comercialmente por primera vez en febrero de 1999. ^[10] Jill Burstein fue la líder del equipo en su desarrollo. El servicio de evaluación de redacción en línea Criterion de ETS utiliza el motor e-rater para proporcionar puntajes y comentarios específicos.

Lawrence Rudner ha trabajado un poco con la puntuación bayesiana y ha desarrollado un sistema llamado BETSY (sistema de puntuación de la prueba de ensayo bayesiano). ^[11] Algunos de sus resultados se han publicado en forma impresa o en línea, pero ningún sistema comercial incorpora BETSY hasta el momento.

Bajo el liderazgo de Howard Mitzel y Sue Lottridge, Pacific Metrics desarrolló un motor de puntuación automatizado de respuesta construida, CRASE. Actualmente utilizada por varios departamentos de educación estatales y en una Beca de Evaluación Mejorada financiada por el Departamento de Educación de los Estados Unidos, la tecnología de Pacific Metrics se ha utilizado en entornos de evaluación formativa y sumativa a gran escala desde 2007.

Measurement Inc. adquirió los derechos de PEG en 2002 y ha continuado desarrollándolo. ^[12]

En 2012, la Fundación Hewlett patrocinó una competencia en Kaggle llamada Premio de Evaluación Automatizada de Estudiantes (ASAP). ^[13] 201 participantes del desafío intentaron predecir, utilizando AES, los puntajes que los evaluadores humanos darían a miles de ensayos escritos con ocho indicaciones diferentes. La intención era demostrar que AES puede ser tan confiable como los evaluadores humanos, o más. La competencia también organizó una demostración separada entre nueve proveedores de AES sobre un subconjunto de los datos de ASAP. Aunque los investigadores informaron que la puntuación automatizada de ensayos era tan confiable como la puntuación humana, ^[14] esta afirmación no fue corroborada por ninguna prueba estadística porque algunos de los proveedores exigían que no se realizaran tales pruebas como condición previa para su participación. ^[15] Además, la afirmación de que el estudio Hewlett demostró que AES puede ser tan confiable como los evaluadores humanos ha sido fuertemente cuestionada desde entonces, ^[16]^[17] incluso por Randy E. Bennett , el Norman O. Frederiksen Chair in Assessment Innovation en el Servicio de Pruebas Educativas . ^[18] Algunas de las principales críticas al estudio han sido que cinco de los ocho conjuntos de datos consistían en párrafos en lugar de ensayos, cuatro de los ocho conjuntos de datos fueron calificados por lectores humanos solo por contenido en lugar de por capacidad de escritura, y que en lugar de midiendo a los lectores humanos y las máquinas AES contra el "puntaje verdadero", el promedio de los puntajes de los dos lectores, el estudio empleó una construcción artificial, el "puntaje resuelto", que en cuatro conjuntos de datos consistía en el mayor de los dos puntajes humanos si hubo un desacuerdo. Esta última práctica, en particular, dio a las máquinas una ventaja injusta al permitirles redondear estos conjuntos de datos. ^[dieciséis]

En 1966, Page planteó la hipótesis de que, en el futuro, el juez basado en computadora estará mejor correlacionado con cada juez humano que los demás jueces humanos. ^[2] A pesar de criticar la aplicabilidad de este enfoque a la calificación de ensayos en general, esta hipótesis fue apoyada para calificar respuestas de texto libre a preguntas breves, como las típicas del sistema británico GCSE . ^{[19] Los} resultados del aprendizaje supervisado demuestran que los sistemas automáticos funcionan bien cuando la calificación realizada por diferentes profesores humanos está de acuerdo. El agrupamiento de respuestas no supervisado mostró que los trabajos excelentes y los documentos débiles formaron grupos bien definidos, y la regla de calificación automatizada para estos grupos funcionó bien, mientras que las calificaciones otorgadas por profesores humanos para el tercer grupo ('mixto') pueden ser controvertidas, y la confiabilidad de cualquier evaluación de obras del clúster "mixto" a menudo se puede cuestionar (tanto humana como informática). ^[19]

Diferentes dimensiones de la calidad de los ensayos.

Según una encuesta reciente, ^[20] los sistemas AES modernos intentan calificar diferentes dimensiones de la calidad de un ensayo para proporcionar retroalimentación a los usuarios. Estas dimensiones incluyen los siguientes elementos:

Gramaticalidad: seguir las reglas gramaticales
Uso: uso de preposiciones, uso de palabras
Mecánica: seguir las reglas de ortografía, puntuación, uso de mayúsculas
Estilo: elección de palabras, variedad de estructura de oraciones
Relevancia: qué tan relevante es el contenido para el mensaje.
Organización: qué tan bien está estructurado el ensayo.
Desarrollo: desarrollo de ideas con ejemplos
Cohesión: uso apropiado de frases de transición
Coherencia: transiciones apropiadas entre ideas
Claridad de la tesis: claridad de la tesis
Persuasividad: convencimiento del argumento principal.

Procedimiento

Desde el principio, el procedimiento básico para AES ha sido comenzar con un conjunto de ensayos de capacitación que se han calificado cuidadosamente a mano. ^[21] El programa evalúa las características superficiales del texto de cada ensayo, como el número total de palabras, el número de cláusulas subordinadas o la proporción de letras mayúsculas a minúsculas, cantidades que pueden medirse sin ningún conocimiento humano. Luego construye un modelo matemático que relaciona estas cantidades con los puntajes que recibieron los ensayos. A continuación, se aplica el mismo modelo para calcular las puntuaciones de los nuevos ensayos.

Recientemente, Isaac Persing y Vincent Ng crearon uno de esos modelos matemáticos. ^[22] que no solo evalúa los ensayos sobre las características anteriores, sino también sobre la fuerza de sus argumentos. Evalúa varias características del ensayo, como el nivel de acuerdo del autor y las razones del mismo, la adherencia al tema de la pregunta, la ubicación de los componentes del argumento (afirmación principal, afirmación, premisa), errores en los argumentos, cohesión en los argumentos. entre varias otras características. En contraste con los otros modelos mencionados anteriormente, este modelo está más cerca de duplicar la percepción humana al calificar ensayos.

Los diversos programas de AES difieren en las características específicas de la superficie que miden, cuántos ensayos se requieren en el conjunto de entrenamiento y, más significativamente, en la técnica de modelado matemático. Los primeros intentos utilizaron regresión lineal . Los sistemas modernos pueden utilizar la regresión lineal u otras técnicas de aprendizaje automático a menudo en combinación con otras técnicas estadísticas como el análisis semántico latente ^[23] y la inferencia bayesiana . ^[11]

Criterios de éxito

Cualquier método de evaluación debe juzgarse por su validez, imparcialidad y confiabilidad. ^[24] Un instrumento es válido si realmente mide el rasgo que pretende medir. Es justo si, en efecto, no penaliza ni privilegia a ninguna clase de personas. Es confiable si su resultado es repetible, incluso cuando se alteran factores externos irrelevantes.

Antes de que las computadoras entraran en escena, dos evaluadores humanos capacitados asignaban puntajes a los ensayos de alto riesgo. Si las puntuaciones diferían en más de un punto, un tercer evaluador con más experiencia resolvería el desacuerdo. En este sistema, hay una manera fácil de medir la confiabilidad: por acuerdo entre evaluadores . Si los evaluadores no están de acuerdo consistentemente en un punto, su entrenamiento puede ser un error. Si un evaluador constantemente no está de acuerdo con la forma en que otros evaluadores ven los mismos ensayos, es probable que ese evaluador necesite capacitación adicional.

Se han propuesto varias estadísticas para medir el acuerdo entre evaluadores. Entre ellos se encuentran el porcentaje de concordancia, π de Scott , κ de Cohen , α de Krippendorf , de Pearson coeficiente de correlación r , la correlación de rangos de Spearman coeficiente ρ, y de Lin coeficiente de correlación de concordancia .

El porcentaje de concordancia es una estadística simple aplicable a las escalas de calificación con puntajes de 1 an, donde generalmente 4 ≤ n ≤ 6. Se informa como tres cifras, cada una un porcentaje del número total de ensayos calificados: concordancia exacta (los dos evaluadores dieron el ensayo tiene la misma puntuación), el acuerdo adyacente (los evaluadores difirieron como máximo en un punto; esto incluye el acuerdo exacto) y el desacuerdo extremo (los evaluadores difirieron en más de dos puntos). Se encontró que los evaluadores humanos expertos lograban un acuerdo exacto en el 53% al 81% de todos los ensayos, y un acuerdo adyacente en el 97% al 100%. ^[25]

El acuerdo entre evaluadores ahora se puede aplicar para medir el rendimiento de la computadora. Se entrega un conjunto de ensayos a dos evaluadores humanos y a un programa AES. Si los puntajes asignados por computadora coinciden con los de uno de los evaluadores humanos y los evaluadores coinciden entre sí, el programa AES se considera confiable. Alternativamente, a cada ensayo se le da un "puntaje verdadero" tomando el promedio de los puntajes de los dos evaluadores humanos, y los dos humanos y la computadora se comparan sobre la base de su acuerdo con el puntaje verdadero.

Algunos investigadores han informado que sus sistemas AES pueden, de hecho, funcionar mejor que un humano. Page hizo esta afirmación para PEG en 1994. ^[6] Scott Elliot dijo en 2003 que IntelliMetric típicamente superaba a los anotadores humanos. ^{[8] Las} máquinas AES, sin embargo, parecen ser menos confiables que los lectores humanos para cualquier tipo de prueba de escritura compleja. ^[26]

En la práctica actual, las evaluaciones de alto riesgo como el GMAT siempre son calificadas por al menos un humano. AES se utiliza en lugar de un segundo evaluador. Un evaluador humano resuelve cualquier desacuerdo de más de un punto. ^[27]

Crítica

AES ha sido criticada por varios motivos. Yang y col . mencionan "la dependencia excesiva de las características superficiales de las respuestas, la insensibilidad al contenido de las respuestas ya la creatividad, y la vulnerabilidad a nuevos tipos de estrategias para hacer trampas y tomar exámenes". ^{[27] A} varios críticos les preocupa que la motivación de los estudiantes disminuya si saben que ningún ser humano leerá sus escritos. ^[28] Entre las críticas más contundentes se encuentran los informes de ensayos intencionalmente galimatizados que reciben puntuaciones altas. ^[29]

Petición HumanReaders.Org

El 12 de marzo de 2013, HumanReaders.Org lanzó una petición en línea, "Profesionales contra la calificación automática de ensayos de estudiantes en evaluaciones de alto riesgo". En unas semanas, la petición obtuvo miles de firmas, incluido Noam Chomsky , ^[30] y fue citada en varios periódicos, incluido The New York Times , ^[31] y en varios blogs de educación y tecnología. ^[32]

La petición describe el uso de AES para pruebas de alto riesgo como "trivial", "reductivo", "inexacto", "no diagnóstico", "injusto" y "secreto". ^[33]

En un resumen detallado de la investigación sobre AES, el sitio de la petición señala: "LOS HALLAZGOS DE LA INVESTIGACIÓN MUESTRAN QUE nadie (estudiantes, padres, maestros, empleadores, administradores, legisladores) puede confiar en la calificación automática de ensayos ... Y ESA calificación automática no mide, y por lo tanto no promueve, actos auténticos de escritura ". ^[34]

La petición aborda específicamente el uso de AES para pruebas de alto riesgo y no dice nada sobre otros usos posibles.

Software

La mayoría de los recursos para la calificación automática de ensayos son propietarios.

eRater: publicado por Educational Testing Service
Intellimetric - por Vantage Learning
Grado de ensayo del proyecto ^[35] - por Measurement, Inc.

Referencias

^ Página, EB (2003). "Grado de ensayo del proyecto: PEG", pág. 43. En Shermis, Mark D. y Jill Burstein, eds., Puntuación de ensayos automatizada: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
- Larkey, Leah S. y W. Bruce Croft (2003). "Un enfoque de categorización de texto para la calificación automatizada de ensayos", pág. 55. En Shermis, Mark D. y Jill Burstein, eds. Puntuación de ensayos automatizada: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
- Keith, Timothy Z. (2003). "Validez de los sistemas automatizados de puntuación de ensayos", pág. 153. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automática de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
- Shermis, Mark D., Jill Burstein y Claudia Leacock (2006). "Aplicaciones de las computadoras en la evaluación y análisis de la escritura", pág. 403. En MacArthur, Charles A., Steve Graham y Jill Fitzgerald, eds., Handbook of Writing Research . Guilford Press, Nueva York, ISBN 1-59385-190-1
- Attali, Yigal, Brent Bridgeman y Catherine Trapani (2010). "Desempeño de un enfoque genérico en la puntuación de ensayos automatizada", pág. 4. Revista de tecnología, aprendizaje y evaluación , 10 (3)
- Wang, Jinhao y Michelle Stallone Brown (2007). "Puntuación de ensayos automatizada versus puntuación humana: un estudio comparativo", p. 6. Revista de tecnología, aprendizaje y evaluación , 6 (2)
- Bennett, Randy Elliot y Anat Ben-Simon (2005). "Hacia una puntuación de ensayos automatizada teóricamente significativa" Archivado el 7 de octubre de 2007 en Wayback Machine , p. 6. Consultado el 19 de marzo de 2012-.
^ a b Page, EB (1966). "La inminencia de ... calificar ensayos por computadora". El Phi Delta Kappan . 47 (5): 238–243. JSTOR 20371545 .
^ Página, EB (1968). "El uso de la computadora en el análisis de ensayos de estudiantes", Revista Internacional de Educación , 14 (3), 253-263.
^ Página, EB (2003), págs. 44-45.
^ MacDonald, NH, LT Frase, PS Gingrich y SA Keenan (1982). "The Writers Workbench: ayudas informáticas para el análisis de texto", IEEE Transactions on Communications , 3 (1), 105-110.
↑ a b Page, EB (1994). "Nueva calificación por computadora de prosa estudiantil, utilizando conceptos y software modernos", Revista de educación experimental , 62 (2), 127-142.
^ Rudner, Lawrence. "Tres destacados programas de evaluación de la escritura" Archivado el 9 de marzo de 2012 en Wayback Machine . Consultado el 6 de marzo de 2012.
↑ a b Elliot, Scott (2003). "Intellimetric TM: de aquí a la vigencia", pág. 75. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automática de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
^ " IntelliMetric®: cómo funciona ", Vantage Learning. Consultado el 28 de febrero de 2012.
^ Burstein, Jill (2003). "El motor de puntuación E-rater (R): puntuación de ensayos automatizada con procesamiento de lenguaje natural", pág. 113. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automática de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
↑ a b Rudner, Lawrence (ca. 2002). "Computer Grading using Bayesian Networks-Overview" Archivado el 8 de marzo de 2012 en Wayback Machine . Consultado el 7 de marzo de 2012.
^ "Tecnologías de evaluación" Archivado el 29 de diciembre de 2011 en Wayback Machine , Measurement Incorporated. Consultado el 9 de marzo de 2012.
^ Premio Hewlett " Archivado el 30 de marzo de 2012 en Wayback Machine . Consultado el 5 de marzo de 2012.
^ "Hombre y máquina: mejores escritores, mejores calificaciones" . Universidad de Akron. 12 de abril de 2012 . Consultado el 4 de julio de 2015 .
- Shermis, Mark D. y Jill Burstein, eds. Manual de evaluación automatizada de ensayos: aplicaciones actuales y nuevas direcciones . Routledge, 2013.
^ Rivard, Ry (15 de marzo de 2013). "Los seres humanos luchan por los lectores robóticos" . Inside Higher Ed . Consultado el 14 de junio de 2015 .
^ a b Perelman, Les (agosto de 2013). "Crítica de Mark D. Shermis y Ben Hamner," Puntuación automatizada de ensayos contrastantes: análisis " " . Journal of Writing Assessment . 6 (1) . Consultado el 13 de junio de 2015 .
^ Perelman, L. (2014). "Cuando 'el estado del arte es contar palabras'", Evaluación de la escritura , 21 , 104-111.
^ Bennett, Randy E. (marzo de 2015). "La naturaleza cambiante de la evaluación educativa". Revisión de la investigación en educación . 39 (1): 370–407. doi : 10.3102 / 0091732X14554179 . S2CID 145592665 .
^ a b Süzen, N .; Mirkes, EM; Levesley, J; Gorban, AN (2020). "Calificación automática de respuestas cortas y comentarios utilizando métodos de minería de texto" . Procedia Informática . 169 : 726–743. arXiv : 1807.10543 . doi : 10.1016 / j.procs.2020.02.171 .
^ Ke, Zixuan (9 de agosto de 2019). "Puntuación de ensayo automatizada: una revisión del estado del arte" (PDF) . Actas de la Vigésima Octava Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI-19) : 6300–6308. doi : 10.24963 / ijcai.2019 / 879 . ISBN 978-0-9992411-4-1. Consultado el 11 de abril de 2020 .
^ Keith, Timothy Z. (2003), p. 149.
^ Persing, Isaac y Vincent Ng (2015). "Modelar la fuerza del argumento en los ensayos de los estudiantes" , págs. 543-552. En Actas de la 53ª Reunión Anual de la Asociación de Lingüística Computacional y la 7ª Conferencia Internacional Conjunta sobre Procesamiento del Lenguaje Natural (Volumen 1: Artículos extensos) . Consultado el 22 de octubre de 2015.
^ Bennett, Randy Elliot y Anat Ben-Simon (2005), p. 7.
^ Chung, Gregory KWK y Eva L. Baker (2003). "Problemas en la confiabilidad y validez de la puntuación automatizada de las respuestas construidas", pág. 23. En: Puntuación de ensayos automatizada: una perspectiva interdisciplinaria . Shermis, Mark D. y Jill Burstein, eds. Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
^ Elliot, Scott (2003), p. 77.
- Burstein, Jill (2003), pág. 114.
^ Bennett, Randy E. (mayo de 2006). "Evaluación de la tecnología y la escritura: lecciones aprendidas de la evaluación nacional del progreso educativo de EE. UU." (PDF) . Asociación Internacional de Evaluación Educativa . Archivado desde el original (PDF) el 24 de septiembre de 2015 . Consultado el 5 de julio de 2015 .
- McCurry, D. (2010). "¿Puede la puntuación de máquina lidiar con pruebas de escritura amplias y abiertas, así como con lectores humanos?". Evaluación de la escritura . 15 (2): 118-129. doi : 10.1016 / j.asw.2010.04.002 .
- R. Bridgeman (2013). Shermis, Mark D .; Burstein, Jill (eds.). Manual de evaluación de ensayos automatizada . Nueva York: Routledge. págs. 221-232.
↑ a b Yang, Yongwei, Chad W. Buckendahl, Piotr J. Juszkiewicz y Dennison S. Bhola (2002). "Una revisión de las estrategias para validar la puntuación automatizada por computadora" Archivado el 13 de enero de 2016 en Wayback Machine , Applied Measurement in Education , 15 (4). Consultado el 8 de marzo de 2012.
^ Wang, Jinhao y Michelle Stallone Brown (2007), págs. 4-5.
- Dikli, Semire (2006). "Una visión general de la puntuación automatizada de ensayos" Archivado el 8 de abril de 2013 en Wayback Machine , Journal of Technology, Learning, and Assessment , 5 (1)
- Ben-Simon, Anat (2007). "Introducción a la puntuación de ensayos automatizada (AES)", presentación en PowerPoint, Tbilisi, Georgia, septiembre de 2007.
^ Winerip, Michael (22 de abril de 2012). "¿Enfrentando a un Robo-Grader? Sólo sigue ofuscando melifluosamente" . The New York Times . Consultado el 5 de abril de 2013 .
^ "Firmas >> Profesionales contra la puntuación de la máquina de ensayos de estudiantes en la evaluación de alto riesgo" . HumanReaders.Org . Archivado desde el original el 18 de noviembre de 2019 . Consultado el 5 de abril de 2013 .
^ Markoff, John (4 de abril de 2013). "El software de calificación de ensayos ofrece a los profesores un descanso" . The New York Times . Consultado el 5 de abril de 2013 .
- Garner, Richard (5 de abril de 2013). "Profesores enojados por ensayos marcados por computadora" . The Independent . Consultado el 5 de abril de 2013 .
^ Corrigan, Paul T. (25 de marzo de 2013). "Petición contra ensayos de puntuación de máquina, HumanReaders.Org" . Enseñanza y aprendizaje en educación superior . Consultado el 5 de abril de 2013 .
- Jaffee, Robert David (5 de abril de 2013). "Las computadoras no pueden leer, escribir o calificar artículos" . Huffington Post . Consultado el 5 de abril de 2013 .
^ "Profesionales contra la puntuación de la máquina de ensayos de estudiantes en la evaluación de alto riesgo" . HumanReaders.Org . Consultado el 5 de abril de 2013 .
^ "Resultados de la investigación >> Profesionales contra la puntuación de la máquina de ensayos de estudiantes en la evaluación de alto riesgo" . HumanReaders.Org . Consultado el 5 de abril de 2013 .
- "Trabajos citados >> Profesionales contra la puntuación de la máquina de ensayos de estudiantes en la evaluación de alto riesgo" . HumanReaders.Org . Consultado el 5 de abril de 2013 .
^ "Tecnologías de evaluación" , medición, Inc.

[1] Página, EB (2003). "Grado de ensayo del proyecto: PEG", pág. 43. En Shermis, Mark D. y Jill Burstein, eds., Puntuación de ensayos automatizada: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
- Larkey, Leah S. y W. Bruce Croft (2003). "Un enfoque de categorización de texto para la calificación automatizada de ensayos", pág. 55. En Shermis, Mark D. y Jill Burstein, eds. Puntuación de ensayos automatizada: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
- Keith, Timothy Z. (2003). "Validez de los sistemas automatizados de puntuación de ensayos", pág. 153. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automática de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739
- Shermis, Mark D., Jill Burstein y Claudia Leacock (2006). "Aplicaciones de las computadoras en la evaluación y análisis de la escritura", pág. 403. En MacArthur, Charles A., Steve Graham y Jill Fitzgerald, eds., Handbook of Writing Research . Guilford Press, Nueva York, ISBN 1-59385-190-1
- Attali, Yigal, Brent Bridgeman y Catherine Trapani (2010). "Desempeño de un enfoque genérico en la puntuación de ensayos automatizada", pág. 4. Revista de tecnología, aprendizaje y evaluación , 10 (3)
- Wang, Jinhao y Michelle Stallone Brown (2007). "Puntuación de ensayos automatizada versus puntuación humana: un estudio comparativo", p. 6. Revista de tecnología, aprendizaje y evaluación , 6 (2)
- Bennett, Randy Elliot y Anat Ben-Simon (2005). "Hacia una puntuación de ensayos automatizada teóricamente significativa" Archivado el 7 de octubre de 2007 en Wayback Machine , p. 6. Consultado el 19 de marzo de 2012-.

[Page1966-2] Page, EB (1966). "La inminencia de ... calificar ensayos por computadora". El Phi Delta Kappan . 47 (5): 238–243. JSTOR 20371545 .

[3] Página, EB (1968). "El uso de la computadora en el análisis de ensayos de estudiantes", Revista Internacional de Educación , 14 (3), 253-263.

[4] Página, EB (2003), págs. 44-45.

[5] MacDonald, NH, LT Frase, PS Gingrich y SA Keenan (1982). "The Writers Workbench: ayudas informáticas para el análisis de texto", IEEE Transactions on Communications , 3 (1), 105-110.

[Page_1994-6] Page, EB (1994). "Nueva calificación por computadora de prosa estudiantil, utilizando conceptos y software modernos", Revista de educación experimental , 62 (2), 127-142.

[7] Rudner, Lawrence. "Tres destacados programas de evaluación de la escritura" Archivado el 9 de marzo de 2012 en Wayback Machine . Consultado el 6 de marzo de 2012.

[Elliot_2003a-8] Elliot, Scott (2003). "Intellimetric TM: de aquí a la vigencia", pág. 75. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automática de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739

[9] " IntelliMetric®: cómo funciona ", Vantage Learning. Consultado el 28 de febrero de 2012.

[10] Burstein, Jill (2003). "El motor de puntuación E-rater (R): puntuación de ensayos automatizada con procesamiento de lenguaje natural", pág. 113. En Shermis, Mark D. y Jill Burstein, eds., Puntuación automática de ensayos: una perspectiva interdisciplinaria . Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739

[Rudner_2002-11] Rudner, Lawrence (ca. 2002). "Computer Grading using Bayesian Networks-Overview" Archivado el 8 de marzo de 2012 en Wayback Machine . Consultado el 7 de marzo de 2012.

[12] "Tecnologías de evaluación" Archivado el 29 de diciembre de 2011 en Wayback Machine , Measurement Incorporated. Consultado el 9 de marzo de 2012.

[13] Premio Hewlett " Archivado el 30 de marzo de 2012 en Wayback Machine . Consultado el 5 de marzo de 2012.

[14] "Hombre y máquina: mejores escritores, mejores calificaciones" . Universidad de Akron. 12 de abril de 2012 . Consultado el 4 de julio de 2015 .
- Shermis, Mark D. y Jill Burstein, eds. Manual de evaluación automatizada de ensayos: aplicaciones actuales y nuevas direcciones . Routledge, 2013.

[15] Rivard, Ry (15 de marzo de 2013). "Los seres humanos luchan por los lectores robóticos" . Inside Higher Ed . Consultado el 14 de junio de 2015 .

[Perelman_2013-16] Perelman, Les (agosto de 2013). "Crítica de Mark D. Shermis y Ben Hamner," Puntuación automatizada de ensayos contrastantes: análisis " " . Journal of Writing Assessment . 6 (1) . Consultado el 13 de junio de 2015 .

[17] Perelman, L. (2014). "Cuando 'el estado del arte es contar palabras'", Evaluación de la escritura , 21 , 104-111.

[18] Bennett, Randy E. (marzo de 2015). "La naturaleza cambiante de la evaluación educativa". Revisión de la investigación en educación . 39 (1): 370–407. doi : 10.3102 / 0091732X14554179 . S2CID 145592665 .

[Nesli2020-19] Süzen, N .; Mirkes, EM; Levesley, J; Gorban, AN (2020). "Calificación automática de respuestas cortas y comentarios utilizando métodos de minería de texto" . Procedia Informática . 169 : 726–743. arXiv : 1807.10543 . doi : 10.1016 / j.procs.2020.02.171 .

[20] Ke, Zixuan (9 de agosto de 2019). "Puntuación de ensayo automatizada: una revisión del estado del arte" (PDF) . Actas de la Vigésima Octava Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI-19) : 6300–6308. doi : 10.24963 / ijcai.2019 / 879 . ISBN 978-0-9992411-4-1. Consultado el 11 de abril de 2020 .

[21] Keith, Timothy Z. (2003), p. 149.

[22] Persing, Isaac y Vincent Ng (2015). "Modelar la fuerza del argumento en los ensayos de los estudiantes" , págs. 543-552. En Actas de la 53ª Reunión Anual de la Asociación de Lingüística Computacional y la 7ª Conferencia Internacional Conjunta sobre Procesamiento del Lenguaje Natural (Volumen 1: Artículos extensos) . Consultado el 22 de octubre de 2015.

[23] Bennett, Randy Elliot y Anat Ben-Simon (2005), p. 7.

[24] Chung, Gregory KWK y Eva L. Baker (2003). "Problemas en la confiabilidad y validez de la puntuación automatizada de las respuestas construidas", pág. 23. En: Puntuación de ensayos automatizada: una perspectiva interdisciplinaria . Shermis, Mark D. y Jill Burstein, eds. Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, ISBN 0805839739

[25] Elliot, Scott (2003), p. 77.
- Burstein, Jill (2003), pág. 114.

[26] Bennett, Randy E. (mayo de 2006). "Evaluación de la tecnología y la escritura: lecciones aprendidas de la evaluación nacional del progreso educativo de EE. UU." (PDF) . Asociación Internacional de Evaluación Educativa . Archivado desde el original (PDF) el 24 de septiembre de 2015 . Consultado el 5 de julio de 2015 .
- McCurry, D. (2010). "¿Puede la puntuación de máquina lidiar con pruebas de escritura amplias y abiertas, así como con lectores humanos?". Evaluación de la escritura . 15 (2): 118-129. doi : 10.1016 / j.asw.2010.04.002 .
- R. Bridgeman (2013). Shermis, Mark D .; Burstein, Jill (eds.). Manual de evaluación de ensayos automatizada . Nueva York: Routledge. págs. 221-232.

[Yang_2002-27] Yang, Yongwei, Chad W. Buckendahl, Piotr J. Juszkiewicz y Dennison S. Bhola (2002). "Una revisión de las estrategias para validar la puntuación automatizada por computadora" Archivado el 13 de enero de 2016 en Wayback Machine , Applied Measurement in Education , 15 (4). Consultado el 8 de marzo de 2012.

[28] Wang, Jinhao y Michelle Stallone Brown (2007), págs. 4-5.
- Dikli, Semire (2006). "Una visión general de la puntuación automatizada de ensayos" Archivado el 8 de abril de 2013 en Wayback Machine , Journal of Technology, Learning, and Assessment , 5 (1)
- Ben-Simon, Anat (2007). "Introducción a la puntuación de ensayos automatizada (AES)", presentación en PowerPoint, Tbilisi, Georgia, septiembre de 2007.

[29] Winerip, Michael (22 de abril de 2012). "¿Enfrentando a un Robo-Grader? Sólo sigue ofuscando melifluosamente" . The New York Times . Consultado el 5 de abril de 2013 .

[30] "Firmas >> Profesionales contra la puntuación de la máquina de ensayos de estudiantes en la evaluación de alto riesgo" . HumanReaders.Org . Archivado desde el original el 18 de noviembre de 2019 . Consultado el 5 de abril de 2013 .

[31] Markoff, John (4 de abril de 2013). "El software de calificación de ensayos ofrece a los profesores un descanso" . The New York Times . Consultado el 5 de abril de 2013 .
- Garner, Richard (5 de abril de 2013). "Profesores enojados por ensayos marcados por computadora" . The Independent . Consultado el 5 de abril de 2013 .

[32] Corrigan, Paul T. (25 de marzo de 2013). "Petición contra ensayos de puntuación de máquina, HumanReaders.Org" . Enseñanza y aprendizaje en educación superior . Consultado el 5 de abril de 2013 .
- Jaffee, Robert David (5 de abril de 2013). "Las computadoras no pueden leer, escribir o calificar artículos" . Huffington Post . Consultado el 5 de abril de 2013 .

[33] "Profesionales contra la puntuación de la máquina de ensayos de estudiantes en la evaluación de alto riesgo" . HumanReaders.Org . Consultado el 5 de abril de 2013 .

[34] "Resultados de la investigación >> Profesionales contra la puntuación de la máquina de ensayos de estudiantes en la evaluación de alto riesgo" . HumanReaders.Org . Consultado el 5 de abril de 2013 .
- "Trabajos citados >> Profesionales contra la puntuación de la máquina de ensayos de estudiantes en la evaluación de alto riesgo" . HumanReaders.Org . Consultado el 5 de abril de 2013 .

[35] "Tecnologías de evaluación" , medición, Inc.

[1]