Estudio de establecimiento de normas

Este artículo tiene varios problemas. Ayude a mejorarlo o discuta estos problemas en la página de discusión . ( Obtenga información sobre cómo y cuándo eliminar estos mensajes de plantilla )

Este artículo tiene un estilo de cita poco claro . Las referencias utilizadas pueden aclararse con un estilo diferente o coherente de citas y notas al pie . ( Marzo de 2017 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

Este artículo incluye una lista de referencias generales , pero permanece en gran parte sin verificar porque carece de suficientes citas en línea correspondientes . Ayude a mejorar este artículo introduciendo citas más precisas. ( Marzo de 2017 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

( Aprenda cómo y cuándo eliminar este mensaje de plantilla )

El estudio de establecimiento de estándares es un estudio de investigación oficial realizado por una organización que patrocina pruebas para determinar una puntuación mínima para la prueba. Ser legalmente defendible en los EE. UU., En particular para evaluaciones de alto riesgo , y cumplir con los Estándares para pruebas educativas y psicológicas., una puntuación de corte no se puede determinar arbitrariamente; debe estar empíricamente justificado. Por ejemplo, la organización no puede simplemente decidir que la puntuación será correcta en un 70%. En cambio, se lleva a cabo un estudio para determinar qué puntaje diferencia mejor las clasificaciones de los examinados, como competente frente a incompetente. Estos estudios requieren una gran cantidad de recursos, en los que participan varios profesionales, en particular con formación psicométrica. Los estudios de establecimiento de estándares son por esa razón poco prácticos para situaciones de salón de clases regulares, sin embargo, en cada nivel de la educación, se realiza el establecimiento de estándares y existen múltiples métodos.

Los estudios de establecimiento de estándares se realizan típicamente utilizando grupos focales de 5-15 expertos en la materia que representan a las partes interesadas clave para la prueba. Por ejemplo, al establecer puntajes de corte para las pruebas educativas, los expertos pueden ser instructores familiarizados con las capacidades de la población estudiantil para la prueba.

Tipos de estudios normativos

Los estudios de establecimiento de normas se dividen en dos categorías, centrados en ítems y centrados en la persona. Ejemplos de métodos centrados en elementos incluyen los métodos Angoff, Ebel, Nedelsky, ^[1] Bookmark y ID Matching, mientras que ejemplos de métodos centrados en la persona incluyen los enfoques de Encuesta límite y Grupos contrastantes. Estos se clasifican así por el enfoque del análisis; en los estudios centrados en ítems, la organización evalúa los ítems con respecto a una determinada población de personas y viceversa para los estudios centrados en la persona.

Los estudios centrados en ítems se relacionan con pruebas con referencia a criterios y con pruebas con referencia a normas .

Estudios centrados en ítems

Método Angoff ^[2] (centrado en el ítem): este método requiere la reunión de un grupo de expertos en la materia (PYMES), a quienes se les pide que evalúen cada ítem y estimen la proporción de examinados mínimamente competentes que responderían correctamente al ítem. Las calificaciones se promedian entre los evaluadores para cada elemento y luego se suman para obtener una puntuación de corte sin procesar recomendada por el panel. Esta puntuación representa la puntuación que el panel estima que obtendría un candidato mínimamente competente. Por supuesto, esto está sujeto a sesgos de decisión , como el sesgo de exceso de confianza . Es preferible la calibración con otras fuentes de datos más objetivas. Existen varias variantes del método.
Método de Angoff modificado(centrado en el ítem): los expertos en la materia generalmente reciben información sobre el método Angoff y se les permite tomar la prueba teniendo en cuenta los niveles de desempeño. A continuación, se pide a las PYME que proporcionen estimaciones para cada pregunta de la proporción de participantes en el límite o "mínimamente aceptables" que esperarían que respondieran correctamente a la pregunta. Las estimaciones están generalmente en forma de tipo de valor p (por ejemplo, 0.6 para el ítem 1: el 60% de los participantes en el límite de aprobación obtendrían esta pregunta correctamente). Por lo general, se realizan varias rondas en las que las PYME pueden modificar sus estimaciones en función de diferentes tipos de información (por ejemplo, información sobre el desempeño real de los participantes en cada pregunta, otras estimaciones de las PYME, etc.). Luego se realiza la determinación final de la puntuación de corte (por ejemplo, promediando estimaciones o tomando la mediana),que a menudo se documenta en un informe junto con resultados secundarios como elconfiabilidad entre evaluadores o el compromiso de Beuk. Los programas de software se utilizan normalmente para calcularlos. ^[3] Este método se usa generalmente con preguntas de opción múltiple.
Método de Angoff modificado dicotómico (centrado en el ítem): En el enfoque de Angoff modificado dicotómico, en lugar de usar estadísticas de tipo de nivel de dificultad (típicamente valores p), se les pide a las PYMES que simplemente proporcionen un 0/1 para cada pregunta ("0" si el participante límite aceptable se equivocaría en la pregunta y "1" si un participante límite aceptable haría bien el artículo)
Método Nedelsky (centrado en ítems): las PYMES toman decisiones pregunta por pregunta con respecto a cuáles de los distractores de preguntas creen que los participantes en el límite podrían eliminar como incorrectos. Este método se usa generalmente solo con preguntas de opción múltiple.
Método de marcador(centrado en el ítem): los ítems de una prueba (o un subconjunto representativo de ítems) están ordenados por dificultad (p. ej., valor de probabilidad de respuesta de la TRI) del más fácil al más difícil. Las PYMES colocan un "marcador" en el "folleto de artículos ordenados" de manera que se espera que un estudiante en el umbral de un nivel de rendimiento responda con éxito a los artículos antes del marcador con una probabilidad igual o mayor que el valor de probabilidad de respuesta especificado (y con una probabilidad menor que ese valor para los elementos después del marcador). Por ejemplo, para una probabilidad de respuesta de.67 (RP67) Las PYMES colocarían un marcador de manera que un examinado en el umbral del nivel de desempeño tendría al menos 2/3 de probabilidad de éxito en los ítems antes del marcador y menos de 2/3 de probabilidad de éxito en los ítems. después del marcador “Este método se considera eficiente con respecto a establecer múltiples puntajes de corte en una sola prueba y se puede usar con pruebas compuestas por múltiples tipos de ítems (p. ej., opción múltiple, respuesta de constructo, etc.).^[4]^[5]^[6]
Coincidencia de artículo-descriptor (ID) ^[7] (centrado en el artículo): Coincidencia de ID (a) combina las ventajas del método Bookmark; es decir, el libro de artículos pedidos y la información sobre la dificultad empírica del artículo transmitida en ese orden; y (b) hipotéticamente una menor complejidad cognitiva y carga cognitiva de otros métodos; que no se requieren juicios de probabilidad propensos a errores; ^{[8] hacer} coincidir las características de los elementos con las características de las descripciones del nivel de logro, lo que se adapta bien a las personas en general, ^[9] y en particular al conocimiento y la experiencia de los educadores; y no es necesario tener en cuenta a un examinado en el límite mientras se hace el juicio de puntuación de corte.

Estudios centrados en la persona

En lugar de los elementos que distinguen a los candidatos competentes, los estudios centrados en la persona evalúan a los mismos examinados. Si bien esto puede parecer más apropiado, a menudo es más difícil porque los examinados no son una población cautiva, como lo es una lista de elementos. Por ejemplo, si sale una nueva prueba con respecto a contenido nuevo (como suele ocurrir en las pruebas de tecnología de la información ), la prueba podría aplicarse a una muestra inicial llamada muestra beta, junto con una encuesta de características profesionales. La organización de pruebas podría analizar y evaluar la relación entre los puntajes de las pruebas y estadísticas importantes, como habilidades, educación y experiencia. El puntaje de corte podría establecerse como el puntaje que mejor diferencia entre los examinados caracterizados como "aprobados" y aquellos como "reprobados".

Método de grupos límite (centrado en la persona): se prepara una descripción para cada categoría de desempeño. Se solicita a las PYME que envíen una lista de participantes cuyo desempeño en la prueba debería estar cerca del estándar de desempeño (límite). La prueba se administra a estos grupos limítrofes y la puntuación media de la prueba se utiliza como puntuación de corte. Este método se puede utilizar con prácticamente cualquier tipo de pregunta (p. Ej., Opción múltiple, respuesta múltiple, ensayo, etc.).
Método de grupos contrastantes (centrado en la persona): se pide a las pymes que clasifiquen a los participantes en sus clases de acuerdo con las descripciones de las categorías de desempeño. La prueba se administra a todos los participantes categorizados y se comparan las distribuciones de puntuación de la prueba para cada uno de los grupos categorizados. Donde las distribuciones de los grupos contrastantes se cruzan es donde se ubicaría la puntuación de corte. Este método se puede utilizar con prácticamente cualquier tipo de pregunta (p. Ej., Opción múltiple, respuesta múltiple, ensayo, etc.).

Referencias

^ Nedelsky, L. (1954). Estándares de calificación absolutos para pruebas objetivas. Medición educativa y psicológica, 14, 3–19.
^ Zieky, MJ (2001). Mucho ha cambiado: cómo ha evolucionado la configuración de las puntuaciones de corte desde la década de 1980. En Cizek, GJ (Ed.), Setting Performance Standards , pág. 19-52. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
^ Assessment Systems Corporation: Angoff Analysis Tool (software gratuito). https://assess.com/angoff-analysis-tool/
^ Lewis, DM, Mitzel, HC, Green, DR (junio de 1996). Configuración estándar: un enfoque de marcador. En DR Green (presidente), procedimientos de establecimiento de estándares basados en IRT que utilizan anclaje conductual. Documento presentado en la Conferencia Nacional sobre Evaluación a Gran Escala del Consejo de Directores Escolares del Estado de 1996, Phoenix, AZ.
^ Mitzel, HC, Lewis, DM, Patz, RJ y Green, DR (2000). El procedimiento del marcador: perspectivas cognitivas sobre el establecimiento de estándares. Capítulo de Establecimiento de estándares de desempeño: conceptos, métodos y perspectivas (GJ Cizek, ed.). Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
^ Lewis, DM, Mitzel, HC, Mercado, RL y Schulz, EM (2012). El procedimiento de configuración estándar de marcadores. Capítulo de Establecimiento de estándares de desempeño: fundamentos, métodos e innovaciones, segunda edición (GJ Cizek, ed.). Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
^ Ferrara, S. y Lewis, D. (2012). El método de coincidencia de artículo-descriptor (ID). En GJ Cizek (Ed.), Estableciendo estándares de desempeño: Fundamentos, métodos e innovaciones (2ª ed., Págs. 255-282).
^ Nickerson, RS (2005). Cognición y azar: la psicología del razonamiento probabilístico. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
^ Murphy, GL (2002). El gran libro de los conceptos. Cambridge, MA: The MIT Press

[1] Nedelsky, L. (1954). Estándares de calificación absolutos para pruebas objetivas. Medición educativa y psicológica, 14, 3–19.

[2] Zieky, MJ (2001). Mucho ha cambiado: cómo ha evolucionado la configuración de las puntuaciones de corte desde la década de 1980. En Cizek, GJ (Ed.), Setting Performance Standards , pág. 19-52. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.

[3] Assessment Systems Corporation: Angoff Analysis Tool (software gratuito). https://assess.com/angoff-analysis-tool/

[4] Lewis, DM, Mitzel, HC, Green, DR (junio de 1996). Configuración estándar: un enfoque de marcador. En DR Green (presidente), procedimientos de establecimiento de estándares basados en IRT que utilizan anclaje conductual. Documento presentado en la Conferencia Nacional sobre Evaluación a Gran Escala del Consejo de Directores Escolares del Estado de 1996, Phoenix, AZ.

[5] Mitzel, HC, Lewis, DM, Patz, RJ y Green, DR (2000). El procedimiento del marcador: perspectivas cognitivas sobre el establecimiento de estándares. Capítulo de Establecimiento de estándares de desempeño: conceptos, métodos y perspectivas (GJ Cizek, ed.). Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.

[6] Lewis, DM, Mitzel, HC, Mercado, RL y Schulz, EM (2012). El procedimiento de configuración estándar de marcadores. Capítulo de Establecimiento de estándares de desempeño: fundamentos, métodos e innovaciones, segunda edición (GJ Cizek, ed.). Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.

[7] Ferrara, S. y Lewis, D. (2012). El método de coincidencia de artículo-descriptor (ID). En GJ Cizek (Ed.), Estableciendo estándares de desempeño: Fundamentos, métodos e innovaciones (2ª ed., Págs. 255-282).

[8] Nickerson, RS (2005). Cognición y azar: la psicología del razonamiento probabilístico. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.

[9] Murphy, GL (2002). El gran libro de los conceptos. Cambridge, MA: The MIT Press

[1]