Prueba de clasificación computarizada

Una prueba de clasificación computarizada ( CCT ) se refiere, como su nombre sugiere, a una prueba que se administra por computadora con el propósito de clasificar a los examinados. El CCT más común es una prueba de dominio en la que la prueba clasifica a los examinados como "Aprobado" o "Reprobado", pero el término también incluye pruebas que clasifican a los examinados en más de dos categorías. Si bien, en general, se puede considerar que el término se refiere a todas las pruebas administradas por computadora para la clasificación, generalmente se usa para referirse a las pruebas que se administran de forma interactiva o de longitud variable, similar a las pruebas adaptativas computarizadas.(GATO). Al igual que CAT, los CCT de longitud variable pueden lograr el objetivo de la prueba (clasificación precisa) con una fracción del número de elementos utilizados en una prueba convencional de forma fija.

Un CCT requiere varios componentes:

Un banco de elementos calibrado con un modelo psicométrico seleccionado por el diseñador de la prueba.
Un punto de partida
Un algoritmo de selección de artículos
Un criterio de terminación y un procedimiento de puntuación.

El punto de partida no es un tema de discusión; La investigación sobre CCT investiga principalmente la aplicación de diferentes métodos para los otros tres componentes. Nota: El criterio de terminación y el procedimiento de puntuación están separados en CAT, pero son iguales en CCT porque la prueba finaliza cuando se realiza una clasificación. Por lo tanto, hay cinco componentes que deben especificarse para diseñar un CAT.

Una introducción a la CCT se encuentra en Thompson (2007) ^[1] y un libro de Parshall, Spray, Kalohn y Davey (2006). ^[2] A continuación se encuentra una bibliografía de investigaciones sobre CCT publicadas.

Cómo funciona

Un CCT es muy similar a un CAT. Los elementos se administran uno a la vez a un examinado. Después de que el examinado responde al ítem, la computadora lo califica y determina si el examinado puede ser clasificado todavía. Si es así, la prueba finaliza y el examinado se clasifica. Si no, se administra otro artículo. Este proceso se repite hasta que se clasifica al examinado o se satisface otro punto final (se han administrado todos los elementos del banco o se alcanza una duración máxima de la prueba).

Modelo psicométrico

Hay dos enfoques disponibles para el modelo psicométrico de un CCT: la teoría de prueba clásica (CTT) y la teoría de respuesta al ítem (IRT). La teoría de exámenes clásica asume un modelo de estado porque se aplica determinando los parámetros de los ítems para una muestra de examinados que se determina que están en cada categoría. Por ejemplo, se pueden muestrear varios cientos de "maestros" y varios cientos de "no maestros" para determinar la dificultad y la discriminación de cada uno, pero hacerlo requiere que pueda identificar fácilmente un conjunto distinto de personas que están en cada grupo. IRT, por otro lado, asume un modelo de rasgo; el conocimiento o habilidad medido por la prueba es un continuo. Los grupos de clasificación deberán definirse más o menos arbitrariamente a lo largo del continuo, como el uso de una puntuación de corte para demarcar maestros y no maestros, pero la especificación de los parámetros de los elementos supone un modelo de rasgo.

Hay ventajas y desventajas para cada uno. CTT ofrece una mayor sencillez conceptual. Más importante aún, CTT requiere menos examinados en la muestra para la calibración de los parámetros del ítem que se usarán eventualmente en el diseño del CCT, lo que lo hace útil para programas de prueba más pequeños. Consulte Frick (1992) ^[3] para obtener una descripción de un CCT basado en CTT. La mayoría de los CCT, sin embargo, utilizan IRT. La IRT ofrece una mayor especificidad, pero la razón más importante puede ser que el diseño de una CCT (y una CAT) es costoso y, por lo tanto, es más probable que se realice mediante un gran programa de pruebas con amplios recursos. Un programa de este tipo probablemente utilizaría IRT.

Punto de partida

Un CCT debe tener un punto de partida específico para habilitar ciertos algoritmos. Si la prueba secuencial de razón de probabilidad se usa como criterio de terminación, implícitamente asume una razón inicial de 1.0 (igual probabilidad de que el examinado sea maestro o no maestro). Si el criterio de terminación es un enfoque de intervalo de confianza , se debe especificar un punto de partida específico en theta. Por lo general, esto es 0.0, el centro de la distribución , pero también podría extraerse al azar de una determinada distribución si se conocen los parámetros de la distribución de los examinados. Además, se puede usar información previa sobre un examinado individual, como su puntaje la última vez que tomó el examen (si lo volvió a tomar).

Selección de artículos

En un CCT, los elementos se seleccionan para su administración a lo largo de la prueba, a diferencia del método tradicional de administrar un conjunto fijo de elementos a todos los examinados. Si bien esto generalmente se hace por ítem individual, también se puede hacer en grupos de ítems conocidos como testlets (Leucht & Nungester, 1996; ^[4] Vos & Glas, 2000 ^[5] ).

Los métodos de selección de artículos se dividen en dos categorías: basados en puntajes de corte y basados en estimaciones. Los métodos basados en puntajes de corte (también conocidos como selección secuencial) maximizan la información proporcionada por el elemento en el puntaje de corte, o puntajes de corte si hay más de uno, independientemente de la capacidad del examinado. Los métodos basados en estimaciones (también conocidos como selección adaptativa) maximizan la información en la estimación actual de la capacidad del examinado, independientemente de la ubicación de la puntuación de corte. Ambos funcionan de manera eficiente, pero la eficiencia depende en parte del criterio de terminación empleado. Debido a que la prueba secuencial de razón de probabilidad solo evalúa probabilidades cercanas al puntaje de corte, la selección de elementos basada en puntaje de corte es más apropiada. Debido a que el criterio de terminación del intervalo de confianza se centra en la estimación de la capacidad de los examinados, la selección de elementos basada en estimaciones es más apropiada. Esto se debe a que la prueba hará una clasificación cuando el intervalo de confianza sea lo suficientemente pequeño como para estar completamente por encima o por debajo de la puntuación de corte (ver más abajo). El intervalo de confianza será menor cuando el error estándar de medición sea menor, y el error estándar de medición será menor cuando haya más información en el nivel theta del examinado.

Criterio de terminación

Hay tres criterios de terminación que se utilizan comúnmente para las transferencias condicionadas de efectivo. Los métodos de la teoría de la decisión bayesiana ofrecen una gran flexibilidad al presentar una variedad infinita de estructuras de pérdida / utilidad y consideraciones de evaluación, pero también introducen una mayor arbitrariedad. Un enfoque de intervalo de confianza calcula un intervalo de confianza alrededor de la estimación theta actual del examinado en cada punto de la prueba, y clasifica al examinado cuando el intervalo cae completamente dentro de una región de theta que define una clasificación. Esto se conocía originalmente como prueba de dominio adaptativo (Kingsbury y Weiss, 1983), pero no requiere necesariamente una selección de elementos adaptativos, ni se limita a la situación de prueba de dominio de dos clasificaciones. La prueba secuencial de razón de probabilidad (Reckase, 1983) define el problema de clasificación como una prueba de hipótesis de que la theta del examinado es igual a un punto específico por encima de la puntuación de corte o un punto específico por debajo de la puntuación de corte.

Referencias

^ Thompson, NA (2007). Una guía para profesionales para pruebas de clasificación computarizada de longitud variable. Investigación y evaluación de evaluación práctica, 12 (1). [1]
^ Parshall, CG, Spray, JA, Kalohn, JC y Davey, T. (2006). Consideraciones prácticas en las pruebas basadas en computadora. Nueva York: Springer.
^ Frick, T. (1992). Pruebas computarizadas de dominio adaptativo como sistemas expertos. Revista de investigación en informática educativa, 8 (2), 187-213.
^ Luecht, RM y Nungester, RJ (1998). Algunos ejemplos prácticos de pruebas secuenciales adaptativas por computadora. Revista de medición educativa, 35, 229-249.
^ Vos, HJ y Glas, CAW (2000). Pruebas de dominio adaptativo basadas en testlets. En van der Linden, WJ, y Glas, CAW (Eds.) Pruebas adaptativas computarizadas: teoría y práctica.

Bibliografía de la investigación CCT

Armitage, P. (1950). Análisis secuencial con más de dos hipótesis alternativas y su relación con el análisis de funciones discriminantes. Revista de la Royal Statistical Society , 12, 137-144.
Braun, H., Bejar, II y Williamson, DM (2006). Métodos basados en reglas para la puntuación automatizada: aplicación en un contexto de licencia. En Williamson, DM, Mislevy, RJ y Bejar, II (Eds.) Calificación automatizada de tareas complejas en pruebas basadas en computadora. Mahwah, Nueva Jersey: Erlbaum.
Dodd, BG, De Ayala, RJ y Koch, WR (1995). Pruebas adaptativas computarizadas con elementos politómicos. Medición psicológica aplicada, 19, 5-22.
Eggen, TJHM (1999). Selección de elementos en pruebas adaptativas con la prueba secuencial de razón de probabilidad. Medición psicológica aplicada, 23, 249-261.
Eggen, TJH M y Straetmans, GJJM (2000). Pruebas adaptativas computarizadas para clasificar a los examinados en tres categorías. Medición educativa y psicológica, 60, 713-734.
Epstein, KI y Knerr, CS (1977). Aplicaciones de los procedimientos de prueba secuenciales a las pruebas de rendimiento. Documento presentado en la Conferencia de Pruebas Adaptativas Computarizadas de 1977, Minneapolis, MN.
Ferguson, RL (1969). El desarrollo, implementación y evaluación de una prueba ramificada asistida por computadora para un programa de instrucción prescrita individualmente. Tesis doctoral inédita, Universidad de Pittsburgh.
Frick, TW (1989). Adaptación bayesiana durante pruebas y ejercicios guiados por ordenador. Revista de Investigación en Computación Educativa, 5, 89-114.
Frick, TW (1990). Una comparación de tres modelos de decisiones para adaptar la duración de las pruebas de dominio por computadora. Revista de Investigación en Computación Educativa, 6, 479-513.
Frick, TW (1992). Pruebas informatizadas de dominio adaptativo como sistemas expertos. Revista de Investigación en Computación Educativa, 8, 187-213.
Huang, C.-Y., Kalohn, JC, Lin, C.-J. y Spray, J. (2000). Estimación de parámetros de ítems a partir de índices clásicos para el desarrollo de conjuntos de ítems con una prueba de clasificación computarizada. (Informe de investigación 2000-4). Ciudad de Iowa, IA: ACT, Inc.
Jacobs-Cassuto, MS (2005). Una comparación de las pruebas de dominio adaptativo con Testlets

Con el modelo logístico de 3 parámetros. Tesis doctoral inédita, Universidad de Minnesota, Minneapolis, MN.

Jiao, H. y Lau, AC (2003). Los efectos del modelo desajustado en la prueba de clasificación computarizada. Documento presentado en la reunión anual del National Council of Educational Measurement, Chicago, IL, abril de 2003.
Jiao, H., Wang, S. y Lau, CA (2004). Una investigación de dos procedimientos combinados de SPRT para decisiones de clasificación de tres categorías en una prueba de clasificación computarizada. Trabajo presentado en la reunión anual de la American Educational Research Association, San Antonio, abril de 2004.
Kalohn, JC y Spray, JA (1999). El efecto de la especificación incorrecta del modelo en las decisiones de clasificación tomadas mediante una prueba computarizada. Revista de medición educativa, 36, 47-59.
Kingsbury, GG y Weiss, DJ (1979). Una estrategia de prueba adaptativa para decisiones de dominio. Informe de investigación 79-05. Minneapolis: Universidad de Minnesota, Laboratorio de Métodos Psicométricos.
Kingsbury, GG y Weiss, DJ (1983). Una comparación de las pruebas de dominio adaptativo basadas en IRT y un procedimiento de prueba de dominio secuencial. En DJ Weiss (Ed.), Nuevos horizontes en las pruebas: teoría de los rasgos latentes y pruebas adaptativas computarizadas (págs. 237-254). Nueva York: Academic Press.
Lau, CA (1996). Solidez de un procedimiento de dominio de pruebas computarizado unidimensional con datos de prueba multidimensionales. Tesis doctoral inédita, Universidad de Iowa, Iowa City IA.
Lau, CA y Wang, T. (1998). Comparar y combinar elementos dicotómicos y politómicos con el procedimiento SPRT en pruebas de clasificación computarizadas. Trabajo presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, San Diego.
Lau, CA y Wang, T. (1999). Prueba de clasificación computarizada bajo restricciones prácticas con un modelo politómico. Trabajo presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, Montreal, Canadá.
Lau, CA y Wang, T. (2000). Un nuevo procedimiento de selección de artículos para tipos de artículos mixtos en pruebas de clasificación computarizadas. Trabajo presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, Nueva Orleans, Luisiana.
Lewis, C. y Sheehan, K. (1990). Uso de la teoría de la decisión bayesiana para diseñar una prueba de dominio computarizada. Medición psicológica aplicada, 14, 367-386.
Lin, C.-J. Y Spray, JA (2000). Efectos de los criterios de selección de elementos en las pruebas de clasificación con la prueba secuencial de razón de probabilidad. (Informe de investigación 2000-8). Ciudad de Iowa, IA: ACT, Inc.
Linn, RL, Rock, DA y Cleary, TA (1972). Pruebas secuenciales para decisiones dicotómicas. Medición educativa y psicológica, 32, 85-95.
Luecht, RM (1996). Pruebas adaptativas computarizadas multidimensionales en un contexto de certificación o licencia. Medición psicológica aplicada, 20, 389-404.
Reckase, MD (1983). Un procedimiento para la toma de decisiones mediante pruebas personalizadas. En DJ Weiss (Ed.), Nuevos horizontes en las pruebas: teoría de los rasgos latentes y pruebas adaptativas computarizadas (págs. 237-254). Nueva York: Academic Press.
Rudner, LM (2002). Un examen de los procedimientos de prueba adaptativos de la teoría de la decisión. Documento presentado en la reunión anual de la Asociación Estadounidense de Investigación Educativa, del 1 al 5 de abril de 2002, Nueva Orleans, LA.
Sheehan, K. y Lewis, C. (1992). Pruebas de dominio computarizadas con testlets no equivalentes. Medición psicológica aplicada, 16, 65-76.
Spray, JA (1993). Clasificación de categorías múltiples mediante una prueba secuencial de razón de probabilidad (Informe de investigación 93-7). Ciudad de Iowa, Iowa: ACT, Inc.
Spray, JA, Abdel-fattah, AA, Huang, C. y Lau, CA (1997). Aproximaciones unidimensionales para una prueba computarizada cuando el conjunto de elementos y el espacio latente son multidimensionales (Informe de investigación 97-5). Ciudad de Iowa, Iowa: ACT, Inc.
Spray, JA y Reckase, MD (1987). El efecto del error de estimación de los parámetros del ítem en las decisiones tomadas utilizando la prueba secuencial de razón de probabilidad (Informe de investigación 87-17). Ciudad de Iowa, IA: ACT, Inc.
Spray, JA y Reckase, MD (1994). La selección de elementos de prueba para la toma de decisiones con una prueba adaptativa computarizada. Documento presentado en la Reunión Anual del Consejo Nacional para la Medición en la Educación (Nueva Orleans, LA, 5 al 7 de abril de 1994).
Spray, JA y Reckase, MD (1996). Comparación de SPRT y procedimientos secuenciales de Bayes para clasificar a los examinados en dos categorías mediante una prueba computarizada. Revista de estadísticas educativas y conductuales, 21, 405-414.
Thompson, NA (2006). Prueba de clasificación computarizada de longitud variable con teoría de respuesta al ítem. Revisión del examen CLEAR, 17 (2).
Vos, HJ (1998). Reglas secuenciales óptimas para la instrucción basada en computadora. Revista de Investigación en Computación Educativa, 19, 133-154.
Vos, HJ (1999). Aplicaciones de la teoría de la decisión bayesiana a las pruebas de dominio secuencial. Revista de estadísticas educativas y conductuales, 24, 271-292.
Wald, A. (1947). Análisis secuencial. Nueva York: Wiley.
Weiss, DJ y Kingsbury, GG (1984). Aplicación de pruebas adaptativas computarizadas a problemas educativos. Revista de medición educativa, 21, 361-375.
Weissman, A. (2004). Selección de elementos de información mutua en la clasificación de categorías múltiples CAT. Documento presentado en la Reunión Anual del Consejo Nacional de Medición en Educación, San Diego, CA.
Weitzman, RA (1982a). Pruebas secuenciales para selección. Medición psicológica aplicada, 6, 337-351.
Weitzman, RA (1982b). Uso de pruebas secuenciales para preseleccionar a los posibles candidatos al servicio militar. En DJ Weiss (Ed.), Actas de la Conferencia de Pruebas Adaptativas Computarizadas de 1982. Minneapolis, MN: Universidad de Minnesota, Departamento de Psicología, Programa de Métodos Psicométricos, 1982.

enlaces externos

Teoría de la decisión de medición por Lawrence Rudner
CAT Central por David J. Weiss

[1] Thompson, NA (2007). Una guía para profesionales para pruebas de clasificación computarizada de longitud variable. Investigación y evaluación de evaluación práctica, 12 (1). [1]

[2] Parshall, CG, Spray, JA, Kalohn, JC y Davey, T. (2006). Consideraciones prácticas en las pruebas basadas en computadora. Nueva York: Springer.

[3] Frick, T. (1992). Pruebas computarizadas de dominio adaptativo como sistemas expertos. Revista de investigación en informática educativa, 8 (2), 187-213.

[4] Luecht, RM y Nungester, RJ (1998). Algunos ejemplos prácticos de pruebas secuenciales adaptativas por computadora. Revista de medición educativa, 35, 229-249.

[5] Vos, HJ y Glas, CAW (2000). Pruebas de dominio adaptativo basadas en testlets. En van der Linden, WJ, y Glas, CAW (Eds.) Pruebas adaptativas computarizadas: teoría y práctica.

[1]