Distribución de Yule-Simon

En probabilidad y estadística , la distribución de Yule-Simon es una distribución de probabilidad discreta que lleva el nombre de Udny Yule y Herbert A. Simon . Simon originalmente lo llamó la distribución de Yule . ^[1]

Yule – Simon
Función de probabilidad Yule – Simon PMF en una escala logarítmica. (Tenga en cuenta que la función solo se define en valores enteros de k. Las líneas de conexión no indican continuidad).
Función de distribución acumulativa Yule – Simon CMF. (Tenga en cuenta que la función solo se define en valores enteros de k. Las líneas de conexión no indican continuidad).
Parámetros	${\ Displaystyle \ rho> 0 \,}$ forma ( real )
Apoyo	${\ Displaystyle k \ in \ {1,2, \ dotsc \}}$
PMF	${\ Displaystyle \ rho \ operatorname {B} (k, \ rho +1)}$
CDF	${\ Displaystyle 1-k \ operatorname {B} (k, \ rho +1)}$
Significar	${\ Displaystyle {\ frac {\ rho} {\ rho -1}}}$ por ${\ Displaystyle \ rho> 1}$
Modo	${\ Displaystyle 1}$
Diferencia	${\ Displaystyle {\ frac {\ rho ^ {2}} {(\ rho -1) ^ {2} (\ rho -2)}}}$ por ${\ Displaystyle \ rho> 2}$
Oblicuidad	${\ Displaystyle {\ frac {(\ rho +1) ^ {2} {\ sqrt {\ rho -2}}} {(\ rho -3) \ rho}} \,}$ por ${\ Displaystyle \ rho> 3}$
Ex. curtosis	${\ Displaystyle \ rho +3 + {\ frac {11 \ rho ^ {3} -49 \ rho -22} {(\ rho -4) (\ rho -3) \ rho}}}$ por ${\ Displaystyle \ rho> 4}$
MGF	no existe
CF	${\ Displaystyle {\ frac {\ rho} {\ rho +1}} {} _ {2} F_ {1} (1,1; \ rho +2; e ^ {i \, t}) e ^ {i \, t}}$

La función de masa de probabilidad (pmf) de la distribución de Yule-Simon ( ρ ) es

{\ Displaystyle f (k; \ rho) = \ rho \ operatorname {B} (k, \ rho +1),}

para entero ${\ Displaystyle k \ geq 1}$ y real ${\ Displaystyle \ rho> 0}$ , dónde ${\ Displaystyle \ operatorname {B}}$ es la función beta . De manera equivalente, la pmf se puede escribir en términos del factorial ascendente como

{\ Displaystyle f (k; \ rho) = {\ frac {\ rho \ Gamma (\ rho +1)} {(k + \ rho) ^ {\ underline {\ rho +1}}}},}

dónde ${\ Displaystyle \ Gamma}$ es la función gamma . Por tanto, si ${\ Displaystyle \ rho}$ es un entero,

{\ Displaystyle f (k; \ rho) = {\ frac {\ rho \, \ rho! \, (k-1)!} {(k + \ rho)!}}.}

El parámetro ${\ Displaystyle \ rho}$ se puede estimar utilizando un algoritmo de punto fijo. ^[2]

La función de masa de probabilidad f tiene la propiedad de que para k suficientemente grande tenemos

{\ Displaystyle f (k; \ rho) \ approx {\ frac {\ rho \ Gamma (\ rho +1)} {k ^ {\ rho +1}}} \ propto {\ frac {1} {k ^ { \ rho +1}}}.}

Gráfico de la distribución de Yule-Simon (1) (rojo) y su ley asintótica de Zipf (azul)

Esto significa que la cola de la distribución Yule-Simon es una realización de la ley de Zipf : ${\ Displaystyle f (k; \ rho)}$ se puede utilizar para modelar, por ejemplo, la frecuencia relativa de la ${\ Displaystyle k}$ la palabra más frecuente en una gran colección de texto, que según la ley de Zipf es inversamente proporcional a una potencia (típicamente pequeña) de ${\ Displaystyle k}$ .

Ocurrencia

La distribución Yule-Simon surgió originalmente como la distribución limitante de un proceso estocástico particular estudiado por Yule como modelo para la distribución de taxones y subtaxis biológicos. ^[3] Simon llamó a este proceso el "proceso de Yule", pero hoy en día se lo conoce más comúnmente como un proceso de apego preferencial . ^{[ cita requerida ]} El proceso de unión preferencial es un proceso de urna en el que las bolas se agregan a un número creciente de urnas, cada bola se asigna a una urna con probabilidad lineal en el número (de bolas) que la urna ya contiene.

La distribución también surge como una distribución compuesta , en la que el parámetro de una distribución geométrica se trata como una función de una variable aleatoria que tiene una distribución exponencial . ^{[ cita requerida ]} Específicamente, suponga que ${\ Displaystyle W}$ sigue una distribución exponencial con escala ${\ Displaystyle 1 / \ rho}$ o tasa ${\ Displaystyle \ rho}$ :

{\ Displaystyle W \ sim \ operatorname {Exponencial} (\ rho),}

con densidad

{\ Displaystyle h (w; \ rho) = \ rho \ exp (- \ rho w).}

Entonces, una variable K distribuida de Yule-Simon tiene la siguiente distribución geométrica condicionada a W :

{\ Displaystyle K \ sim \ operatorname {Geométrico} (\ exp (-W)).}

La pmf de una distribución geométrica es

{\ Displaystyle g (k; p) = p (1-p) ^ {k-1}}

por ${\ Displaystyle k \ in \ {1,2, \ dotsc \}}$ . El pmf de Yule-Simon es entonces la siguiente distribución compuesta geométrica-exponencial:

{\ Displaystyle f (k; \ rho) = \ int _ {0} ^ {\ infty} g (k; \ exp (-w)) h (w; \ rho) \, dw.}

El estimador de máxima verosimilitud para el parámetro ${\ Displaystyle \ rho}$ dadas las observaciones ${\ Displaystyle k_ {1}, k_ {2}, k_ {3}, \ dots, k_ {N}}$ es la solución a la ecuación de punto fijo

{\ Displaystyle \ rho ^ {(t + 1)} = {\ frac {N + a-1} {b + \ sum _ {i = 1} ^ {N} \ sum _ {j = 1} ^ {k_ { i}} {\ frac {1} {\ rho ^ {(t)} + j}}}},}

dónde ${\ Displaystyle b = 0, a = 1}$ son los parámetros de velocidad y forma de la distribución gamma antes de ${\ Displaystyle \ rho}$ .

García ^[2] deriva este algoritmo optimizando directamente la probabilidad. Roberts y Roberts ^[4]

generalice el algoritmo a la configuración bayesiana con la formulación geométrica compuesta descrita anteriormente. Además, Roberts y Roberts ^[4] pueden utilizar el marco de maximización de expectativas (EM) para mostrar la convergencia del algoritmo de punto fijo. Además, Roberts y Roberts ^[4] derivan la sublinealidad de la tasa de convergencia para el algoritmo de punto fijo. Además, utilizan la formulación EM para dar 2 derivaciones alternativas del error estándar del estimador a partir de la ecuación de punto fijo. La varianza de la ${\ Displaystyle \ lambda}$ estimador es

{\ Displaystyle \ operatorname {Var} ({\ hat {\ lambda}}) = {\ frac {1} {{\ frac {N} {{\ hat {\ lambda}} ^ {2}}} - \ sum _ {i = 1} ^ {N} \ sum _ {j = 1} ^ {k_ {i}} {\ frac {1} {({\ hat {\ lambda}} + j) ^ {2}}} }},}

el error estándar es la raíz cuadrada de la cantidad de esta estimación dividida por N.

Generalizaciones

La generalización de dos parámetros de la distribución de Yule original reemplaza la función beta con una función beta incompleta . La función de masa de probabilidad de la distribución generalizada de Yule-Simon ( ρ , α ) se define como

{\ Displaystyle f (k; \ rho, \ alpha) = {\ frac {\ rho} {1- \ alpha ^ {\ rho}}} \; \ mathrm {B} _ {1- \ alpha} (k, \ rho +1), \,}

con ${\ Displaystyle 0 \ leq \ alpha <1}$ . Para ${\ Displaystyle \ alpha = 0}$ la distribución ordinaria de Yule-Simon ( ρ ) se obtiene como un caso especial. El uso de la función beta incompleta tiene el efecto de introducir un corte exponencial en la cola superior.

Ver también

Bibliografía

Colin Rose y Murray D. Smith, Estadística matemática con Mathematica . Nueva York: Springer, 2002, ISBN 0-387-95234-9 . ( Consulte la página 107, donde se denomina "distribución de Yule" ) .

Referencias

^ Simon, HA (1955). "En una clase de funciones de distribución sesgada". Biometrika . 42 (3–4): 425–440. doi : 10.1093 / biomet / 42.3-4.425 .
^ a b García García, Juan Manuel (2011). "Un algoritmo de punto fijo para estimar el parámetro de distribución de Yule-Simon" . Matemática Aplicada y Computación . 217 (21): 8560–8566. doi : 10.1016 / j.amc.2011.03.092 .
^ Yule, GU (1924). "Una teoría matemática de la evolución, basada en las conclusiones del Dr. JC Willis, FRS" . Philosophical Transactions de la Royal Society B . 213 (402–410): 21–87. doi : 10.1098 / rstb.1925.0002 .
^ a b c Roberts, Lucas; Roberts, Denisa (2017). "Un marco de maximización de expectativas para modelos de apego preferencial". arXiv : 1710.08511 [ stat.CO ].

[SimonBiomet-1] Simon, HA (1955). "En una clase de funciones de distribución sesgada". Biometrika . 42 (3–4): 425–440. doi : 10.1093 / biomet / 42.3-4.425 .

[JMGGarcia-2] García García, Juan Manuel (2011). "Un algoritmo de punto fijo para estimar el parámetro de distribución de Yule-Simon" . Matemática Aplicada y Computación . 217 (21): 8560–8566. doi : 10.1016 / j.amc.2011.03.092 .

[YulePhilTrans-3] Yule, GU (1924). "Una teoría matemática de la evolución, basada en las conclusiones del Dr. JC Willis, FRS" . Philosophical Transactions de la Royal Society B . 213 (402–410): 21–87. doi : 10.1098 / rstb.1925.0002 .

[RobertsandRoberts-4] Roberts, Lucas; Roberts, Denisa (2017). "Un marco de maximización de expectativas para modelos de apego preferencial". arXiv : 1710.08511 [ stat.CO ].

[1]