En teoría y estadística de probabilidad , el coeficiente de variación ( CV ), también conocido como desviación estándar relativa ( RSD ), es una medida estandarizada de dispersión de una distribución de probabilidad o distribución de frecuencia . A menudo se expresa como un porcentaje y se define como la relación de la desviación estándar a la media (o su valor absoluto ,). El CV o RSD se usa ampliamente en química analítica para expresar la precisión y repetibilidad de un ensayo . También se usa comúnmente en campos como la ingeniería o la física cuando se realizan estudios de garantía de calidad y R&R de indicador ANOVA . [ cita requerida ] Además, los economistas e inversores utilizan CV en modelos económicos .
Definición
El coeficiente de variación (CV) se define como la relación de la desviación estándar a la media , [1] Muestra el grado de variabilidad en relación con la media de la población. El coeficiente de variación debe calcularse solo para datos medidos en una escala de razón , es decir, escalas que tienen un cero significativo y, por lo tanto, permiten la comparación relativa de dos mediciones (es decir, la división de una medición por la otra). El coeficiente de variación puede no tener ningún significado para los datos en una escala de intervalo . [2] Por ejemplo, la mayoría de las escalas de temperatura (p. Ej., Celsius, Fahrenheit, etc.) son escalas de intervalo con ceros arbitrarios, por lo que el coeficiente de variación calculado sería diferente según la escala que utilizaste. Por otro lado, latemperatura Kelvin tiene un cero significativo, la ausencia total de energía térmica y, por lo tanto, es una escala de relación. En lenguaje sencillo, es significativo decir que 20 Kelvin es dos veces más caliente que 10 Kelvin, pero solo en esta escala con un verdadero cero absoluto. Si bien una desviación estándar (SD) se puede medir en Kelvin, Celsius o Fahrenheit, el valor calculado solo se aplica a esa escala. Solo se puede utilizar la escala Kelvin para calcular un coeficiente de variabilidad válido.
Las mediciones que tienen una distribución logarítmica normal presentan un CV estacionario; por el contrario, SD varía según el valor esperado de las mediciones.
Una posibilidad más robusta es el coeficiente de dispersión del cuartil , la mitad del rango intercuartílico dividido por el promedio de los cuartiles (la mitad de la bisagra ),.
En la mayoría de los casos, un CV se calcula para una sola variable independiente (por ejemplo, un solo producto de fábrica) con numerosas medidas repetidas de una variable dependiente (por ejemplo, error en el proceso de producción). Sin embargo, los datos que son lineales o incluso logarítmicamente no lineales e incluyen un rango continuo para la variable independiente con mediciones escasas en cada valor (p. Ej., Diagrama de dispersión) pueden ser susceptibles de cálculo de CV único utilizando un enfoque de estimación de máxima verosimilitud . [3]
Ejemplos de
Un conjunto de datos de [100, 100, 100] tiene valores constantes. Su desviación estándar es 0 y el promedio es 100, dando el coeficiente de variación como
- 0/100 = 0
Un conjunto de datos de [90, 100, 110] tiene más variabilidad. Su desviación estándar muestral es 10 y su promedio es 100, dando el coeficiente de variación como
- 10/100 = 0,1
Un conjunto de datos de [1, 5, 6, 8, 10, 40, 65, 88] tiene aún más variabilidad. Su desviación estándar es 32,9 y su promedio es 27,9, dando un coeficiente de variación de
- 32,9 / 27,9 = 1,18
Ejemplos de mal uso
La comparación de coeficientes de variación entre parámetros utilizando unidades relativas puede generar diferencias que pueden no ser reales. Si comparamos el mismo conjunto de temperaturas en grados Celsius y Fahrenheit (ambas unidades relativas, donde kelvin y la escala de Rankine son sus valores absolutos asociados):
Celsius: [0, 10, 20, 30, 40]
Fahrenheit: [32, 50, 68, 86, 104]
Las desviaciones estándar de la muestra son 15,81 y 28,46, respectivamente. El CV del primer conjunto es 15,81 / 20 = 79%. Para el segundo conjunto (que son las mismas temperaturas) es 28,46 / 68 = 42%.
Si, por ejemplo, los conjuntos de datos son lecturas de temperatura de dos sensores diferentes (un sensor Celsius y un sensor Fahrenheit) y desea saber qué sensor es mejor eligiendo el que tiene la menor variación, se engañará si usa CV. El problema aquí es que ha dividido por un valor relativo en lugar de uno absoluto.
Comparando el mismo conjunto de datos, ahora en unidades absolutas:
Kelvin: [273,15, 283,15, 293,15, 303,15, 313,15]
Rankine: [491,67, 509,67, 527,67, 545,67, 563,67]
Las desviaciones estándar de la muestra siguen siendo 15,81 y 28,46, respectivamente, porque la desviación estándar no se ve afectada por un desplazamiento constante. Sin embargo, los coeficientes de variación son ahora ambos iguales al 5,39%.
Matemáticamente hablando, el coeficiente de variación no es del todo lineal. Es decir, para una variable aleatoria, el coeficiente de variación de es igual al coeficiente de variación de sólo cuando . En el ejemplo anterior, Celsius solo se puede convertir a Fahrenheit mediante una transformación lineal de la forma con , mientras que los Kelvins se pueden convertir en Rankines mediante una transformación de la forma .
Estimacion
Cuando solo se dispone de una muestra de datos de una población, el CV de la población se puede estimar utilizando la relación de la desviación estándar de la muestra a la media muestral :
Pero este estimador, cuando se aplica a una muestra pequeña o de tamaño moderado, tiende a ser demasiado bajo: es un estimador sesgado . Para datos distribuidos normalmente , un estimador insesgado [4] para una muestra de tamaño n es:
Datos logarítmicos normales
En muchas aplicaciones, se puede suponer que los datos tienen una distribución logarítmica normal (lo que se evidencia por la presencia de asimetría en los datos muestreados). [5] En tales casos, una estimación más precisa, derivada de las propiedades de la distribución log-normal , [6] [7] [8] se define como:
dónde es la desviación estándar de la muestra de los datos después de una transformación logarítmica natural . (En el caso de que las medidas se registren utilizando cualquier otra base logarítmica, b, su desviación estándar se convierte a base e usando y la fórmula para sigue siendo el mismo. [9] ) Esta estimación a veces se denomina "CV geométrico" (GCV) [10] [11] para distinguirla de la estimación simple anterior. Sin embargo, Kirkwood [12] también ha definido el "coeficiente de variación geométrico" como:
Este término tenía la intención de ser análogo al coeficiente de variación, para describir la variación multiplicativa en datos log-normales, pero esta definición de GCV no tiene base teórica como una estimación de sí mismo.
Para muchos propósitos prácticos (como la determinación del tamaño de la muestra y el cálculo de los intervalos de confianza ) esque es de mayor utilidad en el contexto de datos distribuidos normalmente por logaritmos. Si es necesario, esto puede derivarse de una estimación de o GCV invirtiendo la fórmula correspondiente.
Comparación con la desviación estándar
Ventajas
El coeficiente de variación es útil porque la desviación estándar de los datos siempre debe entenderse en el contexto de la media de los datos. Por el contrario, el valor real del CV es independiente de la unidad en la que se ha realizado la medición, por lo que es un número adimensional . Para la comparación entre conjuntos de datos con diferentes unidades o medias muy diferentes, se debe usar el coeficiente de variación en lugar de la desviación estándar.
Desventajas
- Cuando el valor medio es cercano a cero, el coeficiente de variación se acercará al infinito y, por lo tanto, es sensible a pequeños cambios en la media. Este suele ser el caso si los valores no se originan en una escala de razón.
- A diferencia de la desviación estándar, no se puede utilizar directamente para construir intervalos de confianza para la media.
- Los CV no son un índice ideal de la certeza de la medición cuando el número de réplicas varía entre las muestras porque el CV es invariable al número de réplicas, mientras que la certeza de la media mejora con el aumento de réplicas. En este caso, se sugiere que el error estándar en porcentaje es superior. [13]
Aplicaciones
El coeficiente de variación también es común en campos de probabilidad aplicada como la teoría de renovación , la teoría de colas y la teoría de confiabilidad . En estos campos, la distribución exponencial suele ser más importante que la distribución normal . La desviación estándar de una distribución exponencial es igual a su media, por lo que su coeficiente de variación es igual a 1. Las distribuciones con CV <1 (como una distribución de Erlang ) se consideran de baja varianza, mientras que aquellas con CV> 1 (como una distribución hiper-exponencial ) se consideran de alta varianza [ cita requerida ] . Algunas fórmulas de estos campos se expresan utilizando el coeficiente de variación al cuadrado , a menudo abreviado como SCV. En el modelado, una variación del CV es el CV (RMSD). Esencialmente, el CV (RMSD) reemplaza el término de desviación estándar con la desviación cuadrática media de la raíz (RMSD) . Si bien muchos procesos naturales muestran una correlación entre el valor promedio y la cantidad de variación a su alrededor, los dispositivos sensores precisos deben diseñarse de tal manera que el coeficiente de variación sea cercano a cero, es decir, produciendo un error absoluto constante sobre su valor. Rango de trabajo.
En la ciencia actuarial , el CV se conoce como riesgo unificado . [14]
En el procesamiento de sólidos industriales, CV es particularmente importante para medir el grado de homogeneidad de una mezcla de polvo. La comparación del CV calculado con una especificación permitirá definir si se ha alcanzado un grado suficiente de mezcla. [15]
Medidas de laboratorio de los CV intraensayo e interensayo
Las medidas de CV se utilizan a menudo como controles de calidad para ensayos cuantitativos de laboratorio . Si bien se puede suponer que los CV intraensayo e interensayo se calculan simplemente promediando los valores de CV a través de los valores de CV para múltiples muestras dentro de un ensayo o promediando múltiples estimaciones de CV interensayo, se ha sugerido que estas prácticas son incorrectas y que se requiere un proceso computacional más complejo. [16] También se ha observado que los valores de CV no son un índice ideal de certeza de una medición cuando el número de réplicas varía entre muestras; en este caso, se sugiere que el error estándar en porcentaje es superior. [13] Si las mediciones no tienen un punto cero natural, entonces el CV no es una medición válida y se recomiendan medidas alternativas como el coeficiente de correlación intraclase . [17]
Como medida de desigualdad económica
El coeficiente de variación cumple los requisitos para una medida de desigualdad económica . [18] [19] [20] Si x (con entradas x i ) es una lista de los valores de un indicador económico (por ejemplo, riqueza), donde x i es la riqueza del agente i , entonces se cumplen los siguientes requisitos:
- Anonimato - c v es independiente del orden de la lista x . Esto se deriva del hecho de que la varianza y la media son independientes del orden de x .
- Invarianza de escala: c v ( x ) = c v (α x ) donde α es un número real. [20]
- Independencia de la población: si { x , x } es la lista x adjunta a sí misma, entonces c v ({ x , x }) = c v ( x ). Esto se deriva del hecho de que tanto la variación como la media obedecen a este principio.
- Principio de transferencia de Pigou-Dalton: cuando la riqueza se transfiere de un agente más rico i a un agente más pobre j (es decir, x i > x j ) sin alterar su rango, entonces c v disminuye y viceversa. [20]
c v asume su valor mínimo de cero para la igualdad completa (todos x i son iguales). [20] Su inconveniente más notable es que no está acotado desde arriba, por lo que no se puede normalizar para que esté dentro de un rango fijo (por ejemplo, como el coeficiente de Gini, que está limitado a estar entre 0 y 1). [20] Sin embargo, es más manejable matemáticamente que el coeficiente de Gini.
Como medida de estandarización de los artefactos arqueológicos
Los arqueólogos suelen utilizar valores de CV para comparar el grado de estandarización de los artefactos antiguos. [21] [22] Se ha interpretado que la variación en los CV indica diferentes contextos de transmisión cultural para la adopción de nuevas tecnologías. [23] Los coeficientes de variación también se han utilizado para investigar la estandarización de la cerámica relacionada con los cambios en la organización social. [24] Los arqueólogos también utilizan varios métodos para comparar valores de CV, por ejemplo, la prueba de razón de verosimilitud con signo modificada (MSLR) para la igualdad de CV. [25] [26]
Distribución
Siempre que los valores positivos pequeños y negativos de la media de la muestra ocurran con una frecuencia insignificante, la distribución de probabilidad del coeficiente de variación para una muestra de tamañode iid variables aleatorias normales ha sido demostrado por Hendricks y Robey que es [27]
donde el simbolo indica que la suma sólo supera los valores pares de , es decir, si es impar, suma sobre los valores pares de y si es par, suma solo los valores impares de .
Esto es útil, por ejemplo, en la construcción de pruebas de hipótesis o intervalos de confianza . La inferencia estadística del coeficiente de variación en los datos distribuidos normalmente se basa a menudo en la aproximación chi-cuadrado de McKay para el coeficiente de variación [28] [29] [30] [31] [32] [33]
Alternativa
Según Liu (2012), [34] Lehmann (1986). [35] "también derivó la distribución muestral de CV a fin de proporcionar un método exacto para la construcción de un intervalo de confianza para CV"; se basa en una distribución t no central .
Proporciones similares
Los momentos estandarizados son proporciones similares, dónde es el k- ésimo momento alrededor de la media, que también es adimensional y de escala invariante. La relación entre varianza y media ,, es otra razón similar, pero no adimensional y, por lo tanto, no es invariante en la escala. Consulte Normalización (estadísticas) para obtener más proporciones.
En el procesamiento de señales , particularmente el procesamiento de imágenes , la relación recíproca(o su cuadrado) se denomina relación señal / ruido en general y relación señal / ruido (formación de imágenes) en particular.
Otras razones relacionadas incluyen:
- eficiencia ,
- Momento estandarizado ,
- Relación de varianza a media (o varianza relativa),
- Factor Fano , (VMR con ventana)
- Error estándar relativo
Ver también
- Relación omega
- Muestreo (estadísticas)
- Relación de Sharpe
- Función de varianza
Referencias
- ^ Everitt, Brian (1998). El Diccionario de Estadística de Cambridge . Cambridge, Reino Unido Nueva York: Cambridge University Press. ISBN 978-0521593465.
- ^ "¿Cuál es la diferencia entre las variables ordinales, de intervalo y de razón? ¿Por qué debería importarme?" . GraphPad Software Inc. Archivado desde el original el 15 de diciembre de 2008 . Consultado el 22 de febrero de 2008 .
- ^ Odic, Darko; Im, Hee Yeon; Eisinger, Robert; Ly, Ryan; Halberda, Justin (junio de 2016). "PsiMLE: un enfoque de estimación de máxima verosimilitud para estimar la escalabilidad psicofísica y la variabilidad de manera más confiable, eficiente y flexible" . Métodos de investigación del comportamiento . 48 (2): 445–462. doi : 10.3758 / s13428-015-0600-5 . ISSN 1554-3528 . PMID 25987306 .
- ^ Sokal RR y Rohlf FJ. Biometría (3ª Ed.). Nueva York: Freeman, 1995. p. 58. ISBN 0-7167-2411-1
- ^ Limpert, Eckhard; Stahel, Werner A .; Abbt, Markus (2001). "Distribuciones logarítmicas normales en las ciencias: claves y pistas" . BioScience . 51 (5): 341–352. doi : 10.1641 / 0006-3568 (2001) 051 [0341: LNDATS] 2.0.CO; 2 .
- ^ Koopmans, LH; Owen, DB; Rosenblatt, JI (1964). "Intervalos de confianza para el coeficiente de variación de las distribuciones normal y logarítmica normal". Biometrika . 51 (1–2): 25–32. doi : 10.1093 / biomet / 51.1-2.25 .
- ^ Diletti, E; Hauschke, D; Steinijans, VW (1992). "Determinación del tamaño de la muestra para la evaluación de la bioequivalencia mediante intervalos de confianza". Revista Internacional de Farmacología Clínica, Terapia y Toxicología . 30 Supl. 1: S51–8. PMID 1601532 .
- ^ Julious, Steven A .; Debarnot, Camille AM (2000). "¿Por qué los datos farmacocinéticos se resumen por medios aritméticos?". Revista de estadísticas biofarmacéuticas . 10 (1): 55–71. doi : 10.1081 / BIP-100101013 . PMID 10709801 .
- ^ Reed, JF; Lynn, F; Meade, BD (2002). "Uso del coeficiente de variación en la evaluación de la variabilidad de los ensayos cuantitativos" . Clin Diagn Lab Immunol . 9 (6): 1235-1239. doi : 10.1128 / CDLI.9.6.1235-1239.2002 . PMC 130103 . PMID 12414755 .
- ^ Sawant, S .; Mohan, N. (2011) "Preguntas frecuentes: Problemas con el análisis de eficacia de los datos de ensayos clínicos utilizando SAS" Archivado el 24 de agosto de 2011 en Wayback Machine , PharmaSUG2011 , Paper PO08
- ^ Schiff, MH; et al. (2014). "Estudio cruzado, aleatorizado, cabeza a cabeza de metotrexato oral versus subcutáneo en pacientes con artritis reumatoide: las limitaciones de exposición al fármaco del metotrexato oral en dosis> = 15 mg pueden superarse con la administración subcutánea" . Ann Rheum Dis . 73 (8): 1–3. doi : 10.1136 / annrheumdis-2014-205228 . PMC 4112421 . PMID 24728329 .
- ^ Kirkwood, TBL (1979). "Medios geométricos y medidas de dispersión". Biometría . 35 (4): 908–9. JSTOR 2530139 .
- ^ a b Eisenberg, Dan (2015). "Mejora de los ensayos de longitud de los telómeros de qPCR: controlar los efectos de la posición del pozo aumenta el poder estadístico" . Revista estadounidense de biología humana . 27 (4): 570–5. doi : 10.1002 / ajhb.22690 . PMC 4478151 . PMID 25757675 .
- ^ Broverman, Samuel A. (2001). Manual de estudio Actex, Curso 1, Examen de la Sociedad de Actuarios, Examen 1 de la Sociedad Actuarial de Accidentes (2001 ed.). Winsted, CT: Publicaciones de Actex. pag. 104. ISBN 9781566983969. Consultado el 7 de junio de 2014 .
- ^ "Medición del grado de mezcla - Homogeneidad de la mezcla de polvo - Calidad de la mezcla - PowderProcess.net" . www.powderprocess.net . Archivado desde el original el 14 de noviembre de 2017 . Consultado el 2 de mayo de 2018 .
- ^ Rodbard, D (octubre de 1974). "Control estadístico de calidad y procesamiento de datos rutinarios para radioinmunoensayos y ensayos inmunorradiométricos". Química clínica . 20 (10): 1255–70. doi : 10.1093 / clinchem / 20.10.1255 . PMID 4370388 .
- ^ Eisenberg, Dan TA (30 de agosto de 2016). "Validez de la medición de la longitud de los telómeros: el coeficiente de variación no es válido y no se puede utilizar para comparar la reacción en cadena de la polimerasa cuantitativa y la técnica de medición de la longitud de los telómeros de Southern blot" . Revista Internacional de Epidemiología . 45 (4): 1295-1298. doi : 10.1093 / ije / dyw191 . ISSN 0300-5771 . PMID 27581804 .
- ^ Champernowne, DG; Cowell, FA (1999). Desigualdad económica y distribución de la renta . Prensa de la Universidad de Cambridge.
- ^ Campano, F .; Salvatore, D. (2006). Distribución de ingresos . Prensa de la Universidad de Oxford.
- ^ a b c d e Bellu, Lorenzo Giovanni; Liberati, Paolo (2006). "Impactos de las políticas sobre la desigualdad: medidas simples de desigualdad" (PDF) . EASYPol, Herramientas analíticas . Servicio de Apoyo a las Políticas, División de Asistencia para las Políticas, FAO. Archivado (PDF) desde el original el 5 de agosto de 2016 . Consultado el 13 de junio de 2016 .
- ^ Eerkens, Jelmer W .; Bettinger, Robert L. (julio de 2001). "Técnicas para evaluar la estandarización en ensamblajes de artefactos: ¿podemos escalar la variabilidad del material?". Antigüedad americana . 66 (3): 493–504. doi : 10.2307 / 2694247 . JSTOR 2694247 .
- ^ Roux, Valentine (2003). "Estandarización cerámica e intensidad de producción: cuantificación de grados de especialización" . Antigüedad americana . 68 (4): 768–782. doi : 10.2307 / 3557072 . ISSN 0002-7316 . JSTOR 3557072 .
- ^ Bettinger, Robert L .; Eerkens, Jelmer (abril de 1999). "Tipologías de puntos, transmisión cultural y difusión de la tecnología de arco y flecha en la gran cuenca prehistórica". Antigüedad americana . 64 (2): 231–242. doi : 10.2307 / 2694276 . JSTOR 2694276 .
- ^ Wang, Li-Ying; Marwick, Ben (octubre de 2020). "Estandarización de la forma de la cerámica: un estudio de caso de la cerámica de la Edad del Hierro del noreste de Taiwán" . Revista de ciencia arqueológica: informes . 33 : 102554. doi : 10.1016 / j.jasrep.2020.102554 .
- ^ Krishnamoorthy, K .; Lee, Meesook (febrero de 2014). "Pruebas mejoradas para la igualdad de coeficientes de variación normales". Estadística computacional . 29 (1–2): 215–232. doi : 10.1007 / s00180-013-0445-2 .
- ^ Marwick, Ben; Krishnamoorthy, K (2019). cvequality: prueba la igualdad de coeficientes de variación de múltiples grupos . Versión del paquete R 0.2.0.
- ^ Hendricks, Walter A .; Robey, Kate W. (1936). "La distribución muestral del coeficiente de variación" . Los Anales de Estadística Matemática . 7 (3): 129–32. doi : 10.1214 / aoms / 1177732503 . JSTOR 2957564 .
- ^ Iglevicz, Boris; Myers, Raymond (1970). "Comparaciones de aproximaciones a los puntos porcentuales del coeficiente de variación muestral". Tecnometría . 12 (1): 166-169. doi : 10.2307 / 1267363 . JSTOR 1267363 .
- ^ Bennett, BM (1976). "Sobre una prueba aproximada de homogeneidad de coeficientes de variación". Contribuciones a la estadística aplicada dedicadas a A. Linder . Experientia Supplementum. 22 : 169-171. doi : 10.1007 / 978-3-0348-5513-6_16 . ISBN 978-3-0348-5515-0.
- ^ Vangel, Mark G. (1996). "Intervalos de confianza para un coeficiente de variación normal". El estadístico estadounidense . 50 (1): 21-26. doi : 10.1080 / 00031305.1996.10473537 . JSTOR 2685039 ..
- ^ Feltz, Carol J; Miller, G. Edward (1996). "Una prueba asintótica para la igualdad de coeficientes de variación de k poblaciones". Estadística en Medicina . 15 (6): 647. doi : 10.1002 / (SICI) 1097-0258 (19960330) 15: 6 <647 :: AID-SIM184> 3.0.CO; 2-P .
- ^ Forkman, Johannes (2009). "Estimador y pruebas de coeficientes comunes de variación en distribuciones normales" (PDF) . Comunicaciones en estadística: teoría y métodos . 38 (2): 21-26. doi : 10.1080 / 03610920802187448 . Archivado (PDF) desde el original el 6 de diciembre de 2013 . Consultado el 23 de septiembre de 2013 .
- ^ Krishnamoorthy, K; Lee, Meesook (2013). "Pruebas mejoradas para la igualdad de coeficientes de variación normales". Estadística computacional . 29 (1–2): 215–232. doi : 10.1007 / s00180-013-0445-2 .
- ^ Liu, Shuang (2012). Estimación del intervalo de confianza para el coeficiente de variación (tesis). Universidad Estatal de Georgia. p.3. Archivado desde el original el 1 de marzo de 2014 . Consultado el 25 de febrero de 2014 .
- ^ Lehmann, EL (1986). Prueba de hipótesis estadística. 2ª ed. Nueva York: Wiley.
enlaces externos
- cvequality : paquete R para probar diferencias significativas entre múltiples coeficientes de variación