Cuantil


De Wikipedia, la enciclopedia libre
  (Redirigido desde Tercile )
Saltar a navegación Saltar a búsqueda
Densidad de probabilidad de una distribución normal , con los cuartiles mostrados. El área debajo de la curva roja es la misma en los intervalos (−∞, Q 1 ) , ( Q 1 , Q 2 ) , ( Q 2 , Q 3 ) y ( Q 3 , + ∞) .

En estadística y probabilidad , los cuantiles son puntos de corte que dividen el rango de una distribución de probabilidad en intervalos continuos con probabilidades iguales, o que dividen las observaciones en una muestra de la misma forma. Hay un cuantil menos que el número de grupos creados. Los cuantiles comunes tienen nombres especiales, como cuartiles (cuatro grupos), deciles (diez grupos) y percentiles (100 grupos). Los grupos creados se denominan mitades, tercios, cuartos, etc., aunque a veces los términos para el cuantil se utilizan para los grupos creados, en lugar de para los puntos de corte.

q - los cuantiles son valores que dividen un conjunto finito de valores en q subconjuntos de tamaños (casi) iguales. Hay q - 1 de los q -cuantiles, uno para cada entero k que satisface 0 < k < q . En algunos casos, es posible que el valor de un cuantil no se determine de forma única, como puede ser el caso de la mediana (2-cuantil) de una distribución de probabilidad uniforme en un conjunto de tamaño par. Los cuantiles también se pueden aplicar adistribuciones continuas , lo que proporciona una forma de generalizar las estadísticas de clasificación.a variables continuas (ver rango percentil ). Cuando se conoce la función de distribución acumulada de una variable aleatoria , los q -cuantiles son la aplicación de la función cuantil (la función inversa de la función de distribución acumulada ) a los valores {1 / q , 2 / q ,…, ( q - 1) / q }.

Cuantiles especializados

Algunos q -cuantiles tienen nombres especiales: [ cita requerida ]

  • El único cuantil 2 se llama mediana
  • Los 3-cuantiles se denominan terciles o terciles → T
  • Los 4 cuantiles se denominan cuartiles → Q; la diferencia entre los cuartiles superior e inferior también se denomina rango intercuartílico , medio o medio cincuenta → IQR = Q 3 - Q 1 .
  • Los 5 cuantiles se denominan quintiles → QU
  • Los 6 cuantiles se llaman sextiles → S
  • Los 7 cuantiles se llaman septiles.
  • Los 8 cuantiles se llaman octiles
  • Los 10 cuantiles se llaman deciles → D
  • Los 12 cuantiles se denominan dúodecilos o dodeciles.
  • Los 16 cuantiles se denominan hexadeciles → H
  • Los 20 cuantiles se denominan ventiles , vigintiles o demi-deciles → V
  • Los 100 cuantiles se llaman percentiles → P
  • Los 1000 cuantiles se han denominado permiles o mililes, pero son raros y en gran parte obsoletos [1].

Cuantiles de una población

Como en el cálculo de, por ejemplo, la desviación estándar , la estimación de un cuantil depende de si se está operando con una población estadística o con una muestra extraída de ella. Para una población, de valores discretos o para una densidad de población continua, el k -ésimo q -cuantil es el valor de los datos donde la función de distribución acumulada cruza k / q . Es decir, x es un k -ésimo q -cuantil para una variable X si

Pr [ X < x ] ≤ k / q o, de manera equivalente, Pr [ Xx ] ≥ 1 - k / q

y

Pr [ Xx ] ≥ k / q .

Eso equivale a decir que x es el valor más pequeño tal que Pr [ Xx ] ≥ k / q . Para una población finita de N valores igualmente probables indexados 1,…, N de menor a mayor, el k -ésimo q -cuantil de esta población se puede calcular de manera equivalente mediante el valor de I p = N k / q . Si I p no es un número entero, redondee al siguiente entero para obtener el índice apropiado; el valor de datos correspondiente es el k -ésimoq -cuantil. Por otro lado, si I p es un número entero, entonces cualquier número desde el valor de los datos en ese índice hasta el valor de los datos del siguiente puede tomarse como cuantil, y es convencional (aunque arbitrario) tomar el promedio de esos dos. valores (consulte Estimación de cuantiles de una muestra ).

Si, en lugar de utilizar números enteros k y q , el " p -cuantil" se basa en un número real p con 0 < p <1 entonces p sustituye k / q en las fórmulas anteriores. Esta terminología más amplia se utiliza cuando se utilizan cuantiles para parametrizar distribuciones de probabilidad continuas . Además, algunos programas de software (incluido Microsoft Excel ) consideran el mínimo y el máximo como los percentiles 0 y 100, respectivamente. Sin embargo, esta terminología más amplia es una extensión más allá de las definiciones estadísticas tradicionales.

Ejemplos de

Los siguientes dos ejemplos utilizan la definición de rango más cercano de cuantil con redondeo. Para obtener una explicación de esta definición, consulte los percentiles .

Población de tamaño uniforme

Considere una población ordenada de 10 valores de datos {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. ¿Cuáles son los 4 cuantiles (los "cuartiles") de este conjunto de datos?

Por tanto, el primer, segundo y tercer cuantil 4 (los "cuartiles") del conjunto de datos {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} son {7, 9, 15}. Si también es necesario, el cuartil cero es 3 y el cuarto cuartil es 20.

Población de tamaño impar

Considere una población ordenada de 11 valores de datos {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. ¿Cuáles son los 4 cuantiles (los "cuartiles") de este conjunto de datos?

Entonces, el primero, segundo y tercer cuantil 4 (los "cuartiles") del conjunto de datos {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} son {7, 9, 15} . Si también es necesario, el cuartil cero es 3 y el cuarto cuartil es 20.

Relación con la media

Para cualquier distribución de probabilidad de población en un número finito de valores, y generalmente para cualquier distribución de probabilidad con media y varianza, se da el caso de que

donde Q p es el valor del p -cuantil para 0 < p <1 (o equivalentemente es el k -ésimo q -cuantil para p = k / q ), donde μ es la media aritmética de la distribución y donde σ es la distribución desviación estándar . [2] En particular, la mediana ( p = k / q = 1/2) nunca es más de una desviación estándar de la media.

Estimación de cuantiles de una muestra

Un problema que surge con frecuencia es la estimación de un cuantil de la población de una (muy grande o infinito), basado en una muestra finita de tamaño N .

La distribución asintótica del p -ésimo cuantil de muestra es bien conocida: es asintóticamente normal alrededor del -ésimo cuantil de población con una varianza igual a

donde f ( x p ) es el valor de la densidad de distribución en el p -ésimo cuantil de población. [3] Sin embargo, esta distribución se basa en el conocimiento de la distribución de la población; lo que equivale al conocimiento de los cuantiles de población, que estamos tratando de estimar. Por lo tanto, los paquetes estadísticos modernos se basan en una técnica diferente, o una selección de técnicas, para estimar los cuantiles.

Hyndman y Fan compilaron una taxonomía de nueve algoritmos [4] utilizados por varios paquetes de software. Todos los métodos calculan Q p , la estimación del p -cuantil (el k -ésimo q -cuantil, donde p = k / q ) a partir de una muestra de tamaño N calculando un índice de valor real h . Cuando h es un número entero, el h -ésimo más pequeño de los N valores, x h, es la estimación de cuantiles. De lo contrario, se utiliza un esquema de redondeo o interpolación para calcular la estimación de cuantiles a partir de h , x h y x h . (Para la notación, consulte las funciones de suelo y techo ).

Los primeros tres son constantes por partes, cambiando abruptamente en cada punto de datos, mientras que los últimos cinco usan interpolación lineal entre puntos de datos y difieren solo en cómo se elige el índice h usado para elegir el punto a lo largo de la curva de interpolación lineal por partes.

Los lenguajes de programación Mathematica , [5] Matlab , [6] R [7] y GNU Octave [8] son compatibles con los nueve métodos de cuantiles de muestra. SAS incluye cinco métodos de muestra de cuantiles, SciPy [9] y Maple [10] ambos incluyen ocho, EViews [11] incluye las seis funciones lineales por partes, Stata [12] incluye dos, Python [13] incluye dos y Microsoft Excel incluye dos . Mathematica y SciPy admiten parámetros arbitrarios para métodos que permiten otros métodos no estándar.

Los tipos de estimación y los esquemas de interpolación utilizados incluyen:

Notas:

  • R-1 a R-3 son constantes por partes, con discontinuidades.
  • R-4 y siguientes son lineales por partes, sin discontinuidades, pero difieren en cómo se calcula h .
  • R-3 y R-4 no son simétricos en el sentido de que no dan h = ( N + 1) / 2 cuando p = 1/2 .
  • PERCENTILE.EXC de Excel y el método "exclusivo" predeterminado de Python son equivalentes a R-6.
  • PERCENTILE y PERCENTILE.INC de Excel y el método "inclusivo" opcional de Python son equivalentes a R-7. Este es el método predeterminado de R.
  • Paquetes difieren en la forma en que estiman cuantiles más allá de los valores más bajos y más altos en la muestra, es decir, p <1 / N y p > ( N - 1) / N . Las opciones incluyen devolver un valor de error, calcular la extrapolación lineal o asumir un valor constante.

De las técnicas, Hyndman y Fan recomiendan R-8, pero la mayoría de los paquetes de software estadístico han elegido R-6 o R-7 como predeterminado. [14]

En general , el error estándar de una estimación cuantílica se puede estimar mediante el bootstrap . También se puede utilizar el método de Maritz-Jarrett. [15]

Cuantiles aproximados de una corriente

El cálculo de cuantiles aproximados a partir de datos que llegan de una secuencia se puede realizar de manera eficiente utilizando estructuras de datos comprimidos. Los métodos más populares son t-digest [16] y KLL. [17] Estos métodos leen un flujo de valores de manera continua y pueden, en cualquier momento, ser consultados sobre el valor aproximado de un cuantil específico.

Ambos algoritmos se basan en una idea similar: comprimir el flujo de valores resumiendo valores idénticos o similares con un peso. Si el flujo está hecho de una repetición de 100 veces v1 y 100 veces v2, no hay razón para mantener una lista ordenada de 200 elementos, basta con mantener dos elementos y dos conteos para poder recuperar los cuantiles. Con más valores, estos algoritmos mantienen un equilibrio entre el número de valores únicos almacenados y la precisión de los cuantiles resultantes. Algunos valores pueden descartarse de la secuencia y contribuir al peso de un valor cercano sin cambiar demasiado los resultados del cuantil. t-digest usa un enfoque basado en la agrupación de k-medias para agrupar valores similares, mientras que KLL usa un método "compactador" más sofisticado que conduce a un mejor control de los límites de error.

Ambos métodos pertenecen a la familia de bocetos de datos que son subconjuntos de algoritmos de transmisión con propiedades útiles: los bocetos t-digest o KLL se pueden combinar. El cálculo del boceto para un vector de valores muy grande se puede dividir en procesos trivialmente paralelos donde los bocetos se calculan para particiones del vector en paralelo y se fusionan más tarde.

Discusión

Los resultados de las pruebas estandarizadas se informan comúnmente como una calificación de los estudiantes "en el percentil 80", por ejemplo. Esto usa un significado alternativo de la palabra percentil como el intervalo entre (en este caso) el percentil 80 y el 81 escalar. [18] Este significado separado de percentil también se utiliza en artículos de investigación científica revisados ​​por pares. [19] El significado utilizado puede derivarse de su contexto.

Si una distribución es simétrica, entonces la mediana es la media (siempre que exista esta última). Pero, en general, la mediana y la media pueden diferir. Por ejemplo, con una variable aleatoria que tiene una distribución exponencial , cualquier muestra particular de esta variable aleatoria tendrá aproximadamente un 63% de probabilidad de ser menor que la media. Esto se debe a que la distribución exponencial tiene una cola larga para valores positivos, pero es cero para números negativos.

Los cuantiles son medidas útiles porque son menos susceptibles que los medios a distribuciones de cola larga y valores atípicos. Empíricamente, si los datos que se analizan en realidad no se distribuyen de acuerdo con una distribución supuesta, o si existen otras fuentes potenciales de valores atípicos que están muy alejadas de la media, entonces los cuantiles pueden ser estadísticas descriptivas más útiles que las medias y otras estadísticas relacionadas con el momento. .

Estrechamente relacionado está el tema de las desviaciones mínimas absolutas , un método de regresión que es más robusto a los valores atípicos que los mínimos cuadrados, en el que se usa la suma del valor absoluto de los errores observados en lugar del error al cuadrado. La conexión es que la media es la estimación única de una distribución que minimiza el error cuadrado esperado, mientras que la mediana minimiza el error absoluto esperado. Las desviaciones mínimas absolutas comparten la capacidad de ser relativamente insensibles a las grandes desviaciones en las observaciones periféricas, aunque se encuentran disponibles métodos aún mejores de regresión robusta .

Los cuantiles de una variable aleatoria se conservan bajo transformaciones crecientes, en el sentido de que, por ejemplo, si m es la mediana de una variable aleatoria X , entonces 2 m es la mediana de 2 X , a menos que se haya hecho una elección arbitraria a partir de una variable aleatoria. rango de valores para especificar un cuantil particular. (Consulte la estimación por cuantiles, más arriba, para ver ejemplos de dicha interpolación.) Los cuantiles también se pueden utilizar en los casos en que solo se dispone de datos ordinales .

Ver también

  • Flashsort : ordena por primera agrupación por cuantil
  • Rango intercuartil
  • Estadísticas descriptivas
  • Cuartilla
  • Gráfico Q – Q
  • Función cuantil
  • Normalización de cuantiles
  • Regresión cuantílica
  • Cuantización
  • Resumen estadístico
  • Intervalo de tolerancia (" intervalos de confianza para el p- ésimo cuantil" [20] )

Referencias

  1. ^ Helen Mary Walker, Joseph Lev, Métodos estadísticos elementales , 1969, [p. 60 https://books.google.com/books?id=ogYnAQAAIAAJ&dq=permille ]
  2. ^ Bagui, S .; Bhaumik, D. (2004). "Destellos de desigualdades en probabilidad y estadística" (PDF) . Revista Internacional de Ciencias Estadísticas . 3 : 9-15. ISSN  1683-5603 .
  3. ^ Stuart, Alan; Ord, Keith (1994). Teoría avanzada de estadística de Kendall . Londres: Arnold. ISBN 0340614307.
  4. ^ Hyndman, Rob J .; Fan, Yanan (noviembre de 1996). "Cuantiles de muestra en paquetes estadísticos" . Estadístico estadounidense . Asociación Estadounidense de Estadística. 50 (4): 361–365. doi : 10.2307 / 2684934 . JSTOR 2684934 . 
  5. ^ Documentación de Mathematica Consulte la sección 'Detalles'
  6. ^ "Cálculo cuantílico" . uk.mathworks.com .
  7. ^ Frohne, Ivan; Hyndman, Rob J. (2009). Cuantiles de muestra . Proyecto R. ISBN 978-3-900051-07-5.
  8. ^ "Referencia de función: cuantil - Octave-Forge - SourceForge" . Consultado el 6 de septiembre de 2013 .
  9. ^ "scipy.stats.mstats.mquantiles - Guía de referencia de SciPy v1.4.1" . docs.scipy.org .
  10. ^ "Estadísticas - Ayuda de programación de Maple" . www.maplesoft.com .
  11. ^ "Copia archivada" . Archivado desde el original el 16 de abril de 2016 . Consultado el 4 de abril de 2016 .CS1 maint: copia archivada como título ( enlace )
  12. ^ Documentación de Stata para los comandos pctile y xtile Consulte la sección 'Métodos y fórmulas'.
  13. ^ "estadísticas - Funciones de estadísticas matemáticas - Documentación de Python 3.8.3rc1" . docs.python.org .
  14. ^ Hyndman, Rob J. (28 de marzo de 2016). "Muestra cuantiles 20 años después" . Blog de Hyndsignt . Consultado el 30 de noviembre de 2020 .
  15. ^ Wilcox, Rand R. (2010). Introducción a la estimación robusta y la prueba de hipótesis . ISBN 978-0-12-751542-7.
  16. ^ Dunning, Ted; Ertl, Otmar (febrero de 2019). "Calcular cuantiles extremadamente precisos utilizando t-Digests". arXiv : 1902.04023 [ stat.CO ].
  17. ^ Zohar Karnin, Kevin Lang, Edo Liberty (2016). "Aproximación de cuantiles óptimos en corrientes". arXiv : 1603.05346 [ cs.DS ].Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
  18. ^ "percentil" . Referencia de Oxford . Consultado el 17 de agosto de 2020 .
  19. ^ Kruger, J .; Dunning, D. (diciembre de 1999). "Inexperto e inconsciente: cómo las dificultades para reconocer la propia incompetencia conducen a autoevaluaciones infladas" . Revista de Personalidad y Psicología Social . 77 (6): 1121-1134. doi : 10.1037 // 0022-3514.77.6.1121 . ISSN 0022-3514 . PMID 10626367 .  
  20. ^ Stephen B. Vardeman (1992). "¿Qué pasa con los otros intervalos?". El estadístico estadounidense . 46 (3): 193-197. doi : 10.2307 / 2685212 . JSTOR 2685212 . 

Otras lecturas

  • Serfling, RJ (1980). Teoremas de aproximación de la estadística matemática . John Wiley e hijos. ISBN 0-471-02403-1.

enlaces externos

  • Medios relacionados con Quantiles en Wikimedia Commons
Obtenido de " https://en.wikipedia.org/w/index.php?title=Quantile&oldid=1044431023 "