De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
Diagrama del sistema de Pearson, que muestra las distribuciones de los tipos I, III, VI, V y IV en términos de β 1 (asimetría al cuadrado) y β 2 (curtosis tradicional)

La distribución de Pearson es una familia de distribuciones de probabilidad continuas . Fue publicado por primera vez por Karl Pearson en 1895 y posteriormente ampliado por él en 1901 y 1916 en una serie de artículos sobre bioestadística .

Historia [ editar ]

El sistema de Pearson se diseñó originalmente en un esfuerzo por modelar observaciones visiblemente sesgadas . En ese momento, era bien sabido cómo ajustar un modelo teórico para que se ajustara a los dos primeros acumulados o momentos de los datos observados: cualquier distribución de probabilidad puede extenderse directamente para formar una familia de escala de ubicación . Excepto en casos patológicos , se puede hacer una familia de escala de ubicación para que se ajuste arbitrariamente bien a la media observada (primer acumulativo) y la varianza (segundo acumulativo). Sin embargo, no se sabía cómo construir distribuciones de probabilidad en las que la asimetría (tercer acumulado estandarizado) yLa curtosis (cuarto acumulativo estandarizado) podría ajustarse con la misma libertad. Esta necesidad se hizo evidente al intentar ajustar los modelos teóricos conocidos a los datos observados que mostraban asimetría. Los ejemplos de Pearson incluyen datos de supervivencia, que suelen ser asimétricos.

En su artículo original, Pearson (1895, p. 360) identificó cuatro tipos de distribuciones (numeradas del I al IV) además de la distribución normal (que originalmente se conocía como tipo V). La clasificación dependía de si las distribuciones se apoyaban en un intervalo acotado, en una media línea o en toda la línea real ; y si estaban potencialmente sesgados o eran necesariamente simétricos. Un segundo artículo (Pearson 1901) corrigió dos omisiones: redefinió la distribución de tipo V (originalmente solo la distribución normal , pero ahora la distribución gamma inversa) e introdujo la distribución de tipo VI. Juntos, los dos primeros artículos cubren los cinco tipos principales del sistema de Pearson (I, III, IV, V y VI). En un tercer artículo, Pearson (1916) introdujo más casos y subtipos especiales (del VII al XII).

Rhind (1909, págs. 430-432) ideó una forma sencilla de visualizar el espacio de parámetros del sistema de Pearson, que posteriormente fue adoptado por Pearson (1916, lámina 1 y págs. 430ff., 448ff.). Los tipos de Pearson se caracterizan por dos cantidades, comúnmente denominadas β 1 y β 2 . El primero es el cuadrado de la asimetría : donde γ 1 es la asimetría, o tercer momento estandarizado . El segundo es la curtosis tradicional , o cuarto momento estandarizado: β 2 = γ 2 + 3. (Los tratamientos modernos definen la curtosis γ 2 en términos de acumulados en lugar de momentos, de modo que para una distribución normal tenemos γ 2 = 0 and β2 = 3. Here we follow the historical precedent and use β2.) The diagram on the right shows which Pearson type a given concrete distribution (identified by a point (β1, β2)) belongs to.

Muchas de las distribuciones sesgadas y / o no mesocúrticas que conocemos hoy todavía eran desconocidas a principios de la década de 1890. Lo que ahora se conoce como distribución beta había sido utilizado por Thomas Bayes como una distribución posterior del parámetro de una distribución de Bernoulli en su trabajo de 1763 sobre la probabilidad inversa . La distribución Beta ganó prominencia debido a su pertenencia al sistema de Pearson y fue conocida hasta la década de 1940 como la distribución de Pearson tipo I. [1] (La distribución tipo II de Pearson es un caso especial del tipo I, pero por lo general ya no se destaca.) La distribución gammase originó a partir del trabajo de Pearson (Pearson 1893, pág. 331; Pearson 1895, págs. 357, 360, 373–376) y se conoció como distribución de Pearson tipo III, antes de adquirir su nombre moderno en las décadas de 1930 y 1940. [2] El artículo de 1895 de Pearson introdujo la distribución de tipo IV, que contiene la distribución t de Student como un caso especial, anterior al uso posterior de William Sealy Gosset por varios años. Su artículo de 1901 introdujo la distribución gamma inversa (tipo V) y la distribución beta prima (tipo VI).

Definición [ editar ]

Una densidad p de Pearson se define como cualquier solución válida de la ecuación diferencial (cf. Pearson 1895, p. 381)

con:

Según Ord, [3] Pearson ideó la forma subyacente de la Ecuación (1) sobre la base de, en primer lugar, la fórmula para la derivada del logaritmo de la función de densidad de la distribución normal (que da una función lineal) y, en segundo lugar , a partir de una relación de recurrencia para los valores en la función de masa de probabilidad de la distribución hipergeométrica (que produce la estructura lineal dividida por cuadrática).

In Equation (1), the parameter a determines a stationary point, and hence under some conditions a mode of the distribution, since

follows directly from the differential equation.

Since we are confronted with a first-order linear differential equation with variable coefficients, its solution is straightforward:

The integral in this solution simplifies considerably when certain special cases of the integrand are considered. Pearson (1895, p. 367) distinguished two main cases, determined by the sign of the discriminant (and hence the number of real roots) of the quadratic function

Particular types of distribution[edit]

Case 1, negative discriminant[edit]

The Pearson type IV distribution[edit]

If the discriminant of the quadratic function (2) is negative (), it has no real roots. Then define

Observe that α is a well-defined real number and α ≠ 0, because by assumption and therefore b2 ≠ 0. Applying these substitutions, the quadratic function (2) is transformed into

The absence of real roots is obvious from this formulation, because α2 is necessarily positive.

We now express the solution to the differential equation (1) as a function of y:

Pearson (1895, p. 362) llamó a esto el "caso trigonométrico", porque la integral

implica la función arctan trigonométrica inversa . Luego

Finalmente, deja

Aplicando estas sustituciones, obtenemos la función paramétrica:

Esta densidad no normalizada tiene soporte en toda la línea real . Depende de un parámetro de escala α> 0 y parámetros de forma m > 1/2 y  ν . Se perdió un parámetro cuando elegimos encontrar la solución a la ecuación diferencial (1) como una función de y en lugar de x . Por lo tanto, reintroducimos un cuarto parámetro, a saber, el parámetro de ubicación λ . Por tanto, hemos derivado la densidad de la distribución de Pearson tipo IV :

The normalizing constant involves the complex Gamma function (Γ) and the Beta function (B). Notice that the location parameter λ here is not the same as the original location parameter introduced in the general formulation, but is related via

The Pearson type VII distribution[edit]

Plot of Pearson type VII densities with λ = 0, σ = 1, and: γ2 = ∞ (red); γ2 = 4 (blue); and γ2 = 0 (black)

El parámetro de forma ν de la distribución de Pearson tipo IV controla su asimetría . Si fijamos su valor en cero, obtenemos una familia simétrica de tres parámetros. Este caso especial se conoce como distribución de Pearson tipo VII (cf. Pearson 1916, p. 450). Su densidad es

donde B es la función Beta .

Una parametrización alternativa (y una ligera especialización) de la distribución de tipo VII se obtiene dejando

que requiere m > 3/2. Esto implica una pequeña pérdida de generalidad, pero asegura que la varianza de la distribución exista y sea igual a σ 2 . Ahora el parámetro m solo controla la curtosis de la distribución. Si m se acerca al infinito cuando λ y σ se mantienen constantes, la distribución normal surge como un caso especial:

Esta es la densidad de una distribución normal con media λ y desviación estándar σ .

Es conveniente requerir que m > 5/2 y dejar

Esta es otra especialización, y garantiza que existan los primeros cuatro momentos de la distribución. Más específicamente, la distribución de Pearson tipo VII parametrizada en términos de (λ, σ, γ 2 ) tiene una media de λ , una desviación estándar de σ , una asimetría de cero y un exceso de curtosis de γ 2 .

De Student t -distribución [ editar ]

La distribución Pearson tipo VII es equivalente a la no estandarizada de Student t distribución t con parámetros ν> 0, μ, sigma 2 mediante la aplicación de las siguientes sustituciones a su parametrización original:

Observe que se satisface la restricción m > 1/2 .

La densidad resultante es

que se reconoce fácilmente como la densidad de la distribución t de Student.

Esto implica que la distribución Pearson tipo VII subsume el estándar de Student t -distribución y también el estándar de la distribución de Cauchy . En particular, la distribución t de Student estándar surge como un subcaso, cuando μ = 0 y σ 2 = 1, equivalente a las siguientes sustituciones:

La densidad de esta familia restringida de un parámetro es una t de Student estándar :

Caso 2, discriminante no negativo [ editar ]

Si la función cuadrática (2) tiene un discriminante no negativo ( ), tiene raíces reales un 1 y un 2 (no necesariamente distintas):

En presencia de raíces reales, la función cuadrática (2) se puede escribir como

y la solución de la ecuación diferencial es por tanto

Pearson (1895, p. 362) llamó a esto el "caso logarítmico", porque la integral

involucra solo la función logaritmo y no la función arctan como en el caso anterior.

Usando la sustitución

obtenemos la siguiente solución a la ecuación diferencial (1):

Dado que esta densidad solo se conoce hasta una constante oculta de proporcionalidad, esa constante se puede cambiar y la densidad se puede escribir de la siguiente manera:

La distribución de Pearson tipo I [ editar ]

La distribución de tipo I Pearson (una generalización de la distribución beta ) surge cuando las raíces de la ecuación cuadrática (2) son de signo opuesto, es decir, . Entonces la solución p se apoya en el intervalo . Aplicar la sustitución

donde , que produce una solución en términos de y que se apoya en el intervalo (0, 1):

Se puede definir:

Reagrupando constantes y parámetros, esto se simplifica a:

Thus follows a with . It turns out that m1, m2 > −1 is necessary and sufficient for p to be a proper probability density function.

The Pearson type II distribution[edit]

The Pearson type II distribution is a special case of the Pearson type I family restricted to symmetric distributions.

For the Pearson Type II Curve,[4]

where

The ordinate, y, is the frequency of . The Pearson Type II Curve is used in computing the table of significant correlation coefficients for Spearman's rank correlation coefficient when the number of items in a series is less than 100 (or 30, depending on some sources). After that, the distribution mimics a standard Student's t-distribution. For the table of values, certain values are used as the constants in the previous equation:

The moments of x used are

The Pearson type III distribution[edit]

Defining

is . The Pearson type III distribution is a generalized gamma distribution or chi-squared distribution.

The Pearson type V distribution[edit]

Defining new parameters:

follows an . The Pearson type V distribution is an inverse-gamma distribution.

The Pearson type VI distribution[edit]

Defining

follows a . The Pearson type VI distribution is a beta prime distribution or F-distribution.

Relation to other distributions[edit]

The Pearson family subsumes the following distributions, among others:

  • Beta distribution (type I)
  • Beta prime distribution (type VI)
  • Cauchy distribution (type IV)
  • Chi-squared distribution (type III)
  • Continuous uniform distribution (limit of type I)
  • Exponential distribution (type III)
  • Gamma distribution (type III)
  • F-distribution (type VI)
  • Inverse-chi-squared distribution (type V)
  • Inverse-gamma distribution (type V)
  • Normal distribution (limit of type I, III, IV, V, or VI)
  • Student's t-distribution (type VII, which is the non-skewed subtype of type IV)

Alternatives to the Pearson system of distributions for the purpose of fitting distributions to data are the quantile-parameterized distributions (QPDs) and the metalog distributions. QPDs and metalogs can provide greater shape and bounds flexibility than the Pearson system. Instead of fitting moments, QPDs are typically fit to empirical CDF or other data with linear least squares.

Applications[edit]

These models are used in financial markets, given their ability to be parametrized in a way that has intuitive meaning for market traders. A number of models are in current use that capture the stochastic nature of the volatility of rates, stocks, etc.,[which?][citation needed] and this family of distributions may prove to be one of the more important.

In the United States, the Log-Pearson III is the default distribution for flood frequency analysis.[5][citation needed]

Recently, there have been alternatives developed to the Pearson distributions that are more flexible and easier to fit to data. See the metalog distributions.

Notes[edit]

  1. ^ Miller, Jeff; et al. (2006-07-09). "Beta distribution". Earliest Known Uses of Some of the Words of Mathematics. Retrieved 2006-12-09.
  2. ^ Miller, Jeff; et al. (2006-12-07). "Gamma distribution". Earliest Known Uses of Some of the Words of Mathematics. Retrieved 2006-12-09.
  3. ^ Ord J.K. (1972) p. 2
  4. ^ Ramsey, Philip H. (1989-09-01). "Critical Values for Spearman's Rank Order Correlation". Journal of Educational Statistics. 14 (3): 245–253. JSTOR 1165017.
  5. ^ "Guidelines for Determine Flood Flow Frequency" (PDF). USGS Water. March 1982. Retrieved 2019-06-14.

Sources[edit]

Primary sources[edit]

  • Pearson, Karl (1893). "Contributions to the mathematical theory of evolution [abstract]". Proceedings of the Royal Society. 54 (326–330): 329–333. doi:10.1098/rspl.1893.0079. JSTOR 115538.
  • Pearson, Karl (1895). "Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material" (PDF). Philosophical Transactions of the Royal Society. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010. JSTOR 90649.
  • Pearson, Karl (1901). "Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 197 (287–299): 443–459. Bibcode:1901RSPTA.197..443P. doi:10.1098/rsta.1901.0023. JSTOR 90841.
  • Pearson, Karl (1916). "Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 216 (538–548): 429–457. Bibcode:1916RSPTA.216..429P. doi:10.1098/rsta.1916.0009. JSTOR 91092.
  • Rhind, A. (July–October 1909). "Tables to facilitate the computation of the probable errors of the chief constants of skew frequency distributions". Biometrika. 7 (1/2): 127–147. doi:10.1093/biomet/7.1-2.127. JSTOR 2345367.

Secondary sources[edit]

  • Milton Abramowitz and Irene A. Stegun (1964). Handbook of Mathematical Functions with Formulas, Graphs, and Mathematical Tables. National Bureau of Standards.
  • Eric W. Weisstein et al. Pearson Type III Distribution. From MathWorld.

References[edit]

  • Elderton, Sir W.P, Johnson, N.L. (1969) Systems of Frequency Curves. Cambridge University Press.
  • Ord J.K. (1972) Families of Frequency Distributions. Griffin, London.