Criterio de Chauvenet

En teoría estadística, el criterio de Chauvenet (llamado así por William Chauvenet ^[1] ) es un medio de evaluar si un dato experimental - un valor atípico - de un conjunto de observaciones es probable que sea falso. ^{[ cita requerida ]}

Derivación

La idea detrás del criterio de Chauvenet es encontrar una banda de probabilidad, centrada en la media de una distribución normal , que debería contener razonablemente todas las n muestras de un conjunto de datos. Al hacer esto, los puntos de datos de las n muestras que se encuentran fuera de esta banda de probabilidad se pueden considerar valores atípicos, se eliminan del conjunto de datos y se puede calcular una nueva media y desviación estándar basada en los valores restantes y un nuevo tamaño de muestra. Esta identificación de los valores atípicos se logrará al encontrar el número de desviaciones estándar que corresponden a los límites de la banda de probabilidad alrededor de la media ( ${\ Displaystyle D _ {\ mathrm {max}}}$ ) y comparar ese valor con el valor absoluto de la diferencia entre los valores atípicos sospechosos y la media dividida por la desviación estándar de la muestra (Ec. 1).

{\ Displaystyle D _ {\ mathrm {max}} \ geq {\ frac {| x - {\ bar {x}} |} {s_ {x}}}}

( 1 )

dónde

${\ Displaystyle D _ {\ mathrm {max}}}$ es la desviación máxima permitida,
${\ Displaystyle | \ cdot |}$ es el valor absoluto,
${\ Displaystyle x}$ es el valor del valor atípico sospechado,
${\ displaystyle {\ bar {x}}}$ es la media de la muestra, y
${\ Displaystyle s_ {x}}$ es la desviación estándar de la muestra.

Para que se considere que incluye a todos ${\ Displaystyle n}$ observaciones en la muestra, la banda de probabilidad (centrada en la media) solo debe tener en cuenta ${\ Displaystyle n - {\ tfrac {1} {2}}}$ muestras (si ${\ Displaystyle n = 3}$ entonces solo 2.5 de las muestras deben contabilizarse en la banda de probabilidad). En realidad, no podemos tener muestras parciales, por lo que ${\ Displaystyle n - {\ tfrac {1} {2}}}$ (2,5 para ${\ Displaystyle n = 3}$ ) es aproximadamente ${\ Displaystyle n}$ . Algo menos que ${\ Displaystyle n - {\ tfrac {1} {2}}}$ es aproximadamente ${\ Displaystyle n-1}$ (2 si ${\ Displaystyle n = 3}$ ) y no es válido porque queremos encontrar la banda de probabilidad que contiene ${\ Displaystyle n}$ observaciones, no ${\ Displaystyle n-1}$ muestras. En resumen, buscamos la probabilidad, ${\ Displaystyle P}$ , eso es igual a ${\ Displaystyle n - {\ tfrac {1} {2}}}$ fuera de ${\ Displaystyle n}$ muestras (ecuación 2).

{\ Displaystyle P = {\ frac {n - {\ tfrac {1} {2}}} {n}} = 1 - {\ tfrac {1} {2n}}}

( 2 )

dónde

${\ Displaystyle P}$ es la banda de probabilidad centrada en la media muestral y
${\ Displaystyle n}$ es el tamaño de la muestra.

La cantidad ${\ Displaystyle {\ tfrac {1} {2n}}}$ corresponde a la probabilidad combinada representada por las dos colas de la distribución normal que quedan fuera de la banda de probabilidad ${\ Displaystyle P}$ . Para encontrar el nivel de desviación estándar asociado con ${\ Displaystyle P}$ , solo es necesario analizar la probabilidad de una de las colas de la distribución normal debido a su simetría (ecuación 3).

{\ Displaystyle P_ {z} = {\ frac {1} {4n}}}

( 3 )

dónde

${\ Displaystyle P_ {z}}$ es la probabilidad representada por una cola de la distribución normal y
${\ Displaystyle n}$ = tamaño de la muestra.

La ecuación 1 es análoga a la ${\ Displaystyle Z}$ ecuación de puntuación (Ecuación 4).

{\ Displaystyle Z = {\ frac {x- \ mu} {\ sigma}}}

( 4 )

dónde

${\ Displaystyle Z}$ es el ${\ Displaystyle Z}$ -puntaje,
${\ Displaystyle x}$ es el valor de la muestra,
${\ Displaystyle \ mu = 0}$ es la media de la distribución normal estándar, y
${\ Displaystyle \ sigma = 1}$ es la desviación estándar de la distribución normal estándar.

Basado en la ecuación 4, para encontrar el ${\ Displaystyle D _ {\ mathrm {max}}}$ (Ec. 1) calcule la puntuación z correspondiente a ${\ Displaystyle P_ {z}}$ en un ${\ Displaystyle Z}$ -tabla de puntuación. ${\ Displaystyle D _ {\ mathrm {max}}}$ es igual a la puntuación de ${\ Displaystyle P_ {z}}$ . Usando este método ${\ Displaystyle D _ {\ mathrm {max}}}$ se puede determinar para cualquier tamaño de muestra. En Excel, ${\ Displaystyle D _ {\ mathrm {max}}}$ se puede encontrar con la siguiente fórmula: = ABS (NORM.S. INV (1 / (4 n ))).

Cálculo

Para aplicar el criterio de Chauvenet, primero calcule la media y la desviación estándar de los datos observados. Con base en cuánto difiere el dato sospechoso de la media, use la función de distribución normal (o una tabla de la misma) para determinar la probabilidad de que un punto de datos dado esté en el valor del punto de datos sospechosos. Multiplique esta probabilidad por el número de puntos de datos tomados. Si el resultado es menor que 0.5, el punto de datos sospechoso puede descartarse, es decir, una lectura puede ser rechazada si la probabilidad de obtener la desviación particular de la media es menor que ${\ Displaystyle {\ tfrac {1} {2n}}}$ . ^{[ cita requerida ]}

Ejemplo

Por ejemplo, suponga que un valor se mide experimentalmente en varios ensayos como 9, 10, 10, 10, 11 y 50. La media es 16,7 y la desviación estándar es 16,34. 50 difiere de 16,7 por 33,3, un poco más de dos desviaciones estándar. La probabilidad de obtener datos con más de dos desviaciones estándar de la media es aproximadamente 0,05. Se tomaron seis mediciones, por lo que el valor estadístico (tamaño de los datos multiplicado por la probabilidad) es 0.05 × 6 = 0.3. Dado que 0,3 <0,5, según el criterio de Chauvenet, se debe descartar el valor medido de 50 (dejando una nueva media de 10, con desviación estándar 0,7). ^{[ cita requerida ]}

Criterio de Peirce

Otro método para eliminar datos espurios se llama criterio de Peirce . Se desarrolló unos años antes de que se publicara el criterio de Chauvenet, y es un enfoque más riguroso para la eliminación racional de datos atípicos. ^[2] Otros métodos, como la prueba de Grubbs para valores atípicos, se mencionan en la lista de valores atípicos . ^{[ cita requerida ]}

Crítica

La eliminación de datos atípicos es una práctica controvertida que muchos científicos e instructores de ciencias desaprueban; Si bien el criterio de Chauvenet proporciona un método objetivo y cuantitativo para el rechazo de datos, no hace que la práctica sea más científica o metodológicamente sólida, especialmente en conjuntos pequeños o donde no se puede suponer una distribución normal . El rechazo de valores atípicos es más aceptable en áreas de práctica donde el modelo subyacente del proceso que se mide y la distribución habitual del error de medición se conocen con seguridad.

Referencias

^ Chauvenet, William. Manual de astronomía esférica y práctica V. II. 1863. Reimpresión de 1891. 5ª ed. Dover, NY: 1960. págs. 474–566.
^ Ross, PhD, Stephen (2003). Artículo de la Universidad de New Haven. J. Engr. Technology, otoño de 2003. Obtenido de https://www.researchgate.net/profile/Stephen-Ross-9 .

Bibliografía

Taylor, John R. Introducción al análisis de errores . 2ª edición. Sausalito, California: University Science Books, 1997. págs. 166–8.
Barnett, Vic y Lewis, Toby. "Valores atípicos en datos estadísticos". 3ª edición. Chichester: J. Wiley and Sons, 1994. ISBN 0-471-93094-6 .
Aicha Zerbet, Mikhail Nikulin. Una nueva estadística para detectar valores atípicos en casos exponenciales, Comunicaciones en estadística: teoría y métodos, 2003, v.32, págs. 573–584.

[1] Chauvenet, William. Manual de astronomía esférica y práctica V. II. 1863. Reimpresión de 1891. 5ª ed. Dover, NY: 1960. págs. 474–566.

[ross-2] Ross, PhD, Stephen (2003). Artículo de la Universidad de New Haven. J. Engr. Technology, otoño de 2003. Obtenido de https://www.researchgate.net/profile/Stephen-Ross-9 .

[1]