La gráfica del coeficiente de correlación de la gráfica de probabilidad (PPCC) es una técnica gráfica para identificar el parámetro de forma para una familia de distribución que describe mejor el conjunto de datos. Esta técnica es apropiada para familias, como Weibull , que están definidas por un solo parámetro de forma y parámetros de ubicación y escala , y no es apropiada o incluso posible para distribuciones, como la normal , que se definen solo por ubicación y escala. parámetros.
Muchos análisis estadísticos se basan en supuestos de distribución sobre la población de la que se han obtenido los datos. Sin embargo, las familias de distribución pueden tener formas radicalmente diferentes según el valor del parámetro de forma . Por lo tanto, encontrar una elección razonable para el parámetro de forma es un paso necesario en el análisis. En muchos análisis, encontrar un buen modelo de distribución para los datos es el enfoque principal del análisis.
La técnica es simplemente "trazar los coeficientes de correlación de la gráfica de probabilidad para diferentes valores del parámetro de forma y elegir el valor que produzca el mejor ajuste".
Definición
La trama PPCC está formada por:
- Eje vertical: coeficiente de correlación de la gráfica de probabilidad ;
- Eje horizontal: valor del parámetro de forma.
Es decir, para una serie de valores del parámetro de forma, el coeficiente de correlación se calcula para el gráfico de probabilidad asociado con un valor dado del parámetro de forma. Estos coeficientes de correlación se grafican contra sus correspondientes parámetros de forma. El coeficiente de correlación máximo corresponde al valor óptimo del parámetro de forma. Para una mayor precisión, se pueden generar dos iteraciones del gráfico PPCC; el primero es para encontrar el vecindario correcto y el segundo es para ajustar la estimación.
La gráfica PPCC se usa primero para encontrar un buen valor del parámetro de forma. A continuación, se genera la gráfica de probabilidad para encontrar estimaciones de la ubicación y los parámetros de escala y, además, para proporcionar una evaluación gráfica de la adecuación del ajuste distributivo.
La trama PPCC responde a las siguientes preguntas:
- ¿Cuál es el miembro más adecuado dentro de una familia de distribución?
- ¿El miembro de mejor ajuste proporciona un buen ajuste (en términos de generar una gráfica de probabilidad con un coeficiente de correlación alto)?
- ¿Esta familia de distribución proporciona un buen ajuste en comparación con otras distribuciones?
- ¿Qué tan sensible es la elección del parámetro de forma?
Comparando distribuciones
Además de encontrar una buena opción para estimar el parámetro de forma de una distribución dada, la gráfica PPCC puede ser útil para decidir qué familia de distribución es la más apropiada. Por ejemplo, dado un conjunto de datos de confiabilidad , se pueden generar gráficos PPCC para distribuciones de Weibull, lognormal , gamma y gaussiana inversa , y posiblemente otras, en una sola página. Esta página mostraría el mejor valor para el parámetro de forma para varias distribuciones y además indicaría cuál de estas familias distribucionales proporciona el mejor ajuste (medido por el coeficiente de correlación de la gráfica de probabilidad máxima). Es decir, si el valor máximo de PPCC para el Weibull es 0,99 y solo 0,94 para el lognormal, entonces se podría concluir razonablemente que la familia Weibull es la mejor opción.
Al comparar modelos distributivos, no se debe simplemente elegir el que tiene el valor máximo de PPCC. En muchos casos, varios ajustes de distribución proporcionan valores de PPCC comparables. Por ejemplo, un lognormal y Weibull pueden ajustarse bastante bien a un conjunto dado de datos de confiabilidad. Normalmente, se consideraría la complejidad de la distribución. Es decir, se puede preferir una distribución más simple con un valor de PPCC marginalmente menor a una distribución más compleja. Asimismo, puede haber una justificación teórica en términos del modelo científico subyacente para preferir una distribución con un valor de PPCC marginalmente menor en algunos casos. En otros casos, es posible que no sea necesario saber si el modelo distributivo es óptimo, solo que es adecuado para nuestros propósitos. Es decir, se pueden utilizar técnicas diseñadas para datos distribuidos normalmente incluso si otras distribuciones se ajustan algo mejor a los datos.
Gráfico de PPCC de Tukey-lambda para distribuciones simétricas
La gráfica de Tukey lambda PPCC, con el parámetro de forma λ, es particularmente útil para distribuciones simétricas. Indica si una distribución es de cola corta o larga y además puede indicar varias distribuciones comunes. Específicamente,
- λ = −1: la distribución es aproximadamente Cauchy
- λ = 0: la distribución es exactamente logística
- λ = 0,14: la distribución es aproximadamente normal
- λ = 0.5: la distribución tiene forma de U
- λ = 1: la distribución es exactamente uniforme (−1, 1)
Si la gráfica de Tukey lambda PPCC da un valor máximo cercano a 0.14, se puede concluir razonablemente que la distribución normal es un buen modelo para los datos. Si el valor máximo es menor que 0,14, una distribución de cola larga como la doble exponencial o logística sería una mejor opción. Si el valor máximo está cerca de -1, esto implica la selección de una distribución de cola muy larga, como Cauchy. Si el valor máximo es superior a 0,14, esto implica una distribución de cola corta como la Beta o uniforme.
La gráfica de Tukey-lambda PPCC se utiliza para sugerir una distribución apropiada. Se debe hacer un seguimiento con PPCC y diagramas de probabilidad de las alternativas apropiadas.
Ver también
enlaces externos
Referencias
- Filliben, JJ (febrero de 1975). "La prueba del coeficiente de correlación de la gráfica de probabilidad para la normalidad". Tecnometría . 17 (1): 111-117. doi : 10.2307 / 1268008 . JSTOR 1268008 .
Este artículo incorpora material de dominio público del sitio web del Instituto Nacional de Estándares y Tecnología https://www.nist.gov .