De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En teoría de probabilidad y estadística , el índice de dispersión , [1] índice de dispersión, coeficiente de dispersión, varianza relativa o razón varianza-media (VMR) , como el coeficiente de variación , es una medida normalizada de la dispersión de un distribución de probabilidad : es una medida utilizada para cuantificar si un conjunto de ocurrencias observadas están agrupadas o dispersas en comparación con un modelo estadístico estándar.

Se define como la relación entre la varianza y la media ,

También se conoce como factor Fano , aunque este término a veces se reserva para datos en ventana (la media y la varianza se calculan sobre una subpoblación), donde el índice de dispersión se usa en el caso especial donde la ventana es infinita. Los datos de ventana se realizan con frecuencia: el VMR se calcula con frecuencia en varios intervalos de tiempo o pequeñas regiones en el espacio, que pueden denominarse "ventanas", y la estadística resultante se llama factor de Fano.

Solo se define cuando la media es distinta de cero y generalmente solo se usa para estadísticas positivas, como datos de recuento o tiempo entre eventos, o cuando se supone que la distribución subyacente es la distribución exponencial o la distribución de Poisson .

Terminología [ editar ]

En este contexto, el conjunto de datos observado puede consistir en los tiempos de ocurrencia de eventos predefinidos, como terremotos en una región dada sobre una magnitud dada, o de las ubicaciones en el espacio geográfico de plantas de una especie dada. Los detalles de tales ocurrencias se convierten primero en recuentos del número de eventos o ocurrencias en cada uno de un conjunto de regiones temporales o espaciales de igual tamaño.

Lo anterior define un índice de dispersión para los recuentos . [2] Se aplica una definición diferente para un índice de dispersión para intervalos , [3] donde las cantidades tratadas son las longitudes de los intervalos de tiempo entre los eventos. El uso común es que "índice de dispersión" significa el índice de dispersión para los recuentos.

Interpretación [ editar ]

Algunas distribuciones, sobre todo la distribución de Poisson , tienen la misma varianza y media, lo que les da un VMR = 1. La distribución geométrica y la distribución binomial negativa tienen VMR> 1, mientras que la distribución binomial tiene VMR <1, y la variable aleatoria constante tiene VMR = 0. Esto produce la siguiente tabla:

Esto puede considerarse análogo a la clasificación de secciones cónicas por excentricidad ; consulte Acumulantes de distribuciones de probabilidad particulares para obtener más detalles.

La relevancia del índice de dispersión es que tiene un valor de uno cuando la distribución de probabilidad del número de ocurrencias en un intervalo es una distribución de Poisson . Por lo tanto, la medida se puede utilizar para evaluar si los datos observados se pueden modelar mediante un proceso de Poisson . Cuando el coeficiente de dispersión es menor que 1, se dice que un conjunto de datos está "subredispersado": esta condición puede relacionarse con patrones de ocurrencia que son más regulares que la aleatoriedad asociada con un proceso de Poisson. Por ejemplo, los puntos distribuidos uniformemente en el espacio o los eventos periódicos regulares estarán poco dispersos. Si el índice de dispersión es mayor que 1, se dice que un conjunto de datos está demasiado disperso.: esto puede corresponder a la existencia de grupos de ocurrencias. Los datos agrupados y concentrados están muy dispersos.

Se puede utilizar una estimación del índice de dispersión basada en muestras para construir una prueba de hipótesis estadística formal para determinar la idoneidad del modelo de que una serie de recuentos sigue una distribución de Poisson. [4] [5] En términos de los recuentos de intervalo, la sobredispersión corresponde a que hay más intervalos con recuentos bajos y más intervalos con recuentos altos, en comparación con una distribución de Poisson: por el contrario, la subdispersión se caracteriza porque hay más intervalos con recuentos cercanos al recuento medio, en comparación con una distribución de Poisson.

El VMR también es una buena medida del grado de aleatoriedad de un fenómeno dado. Por ejemplo, esta técnica se usa comúnmente en la gestión de divisas.

Ejemplo [ editar ]

Para partículas de difusión aleatoria ( movimiento browniano ), la distribución del número de partículas dentro de un volumen dado es poissoniana, es decir, VMR = 1. Por lo tanto, para evaluar si un patrón espacial dado (asumiendo que tiene una forma de medirlo) se debe puramente a la difusión o si está involucrada alguna interacción partícula-partícula: divida el espacio en parches, Cuadrados o Unidades de Muestra (SU), cuente el número de individuos en cada parche o SU y calcular el VMR. Los VMR significativamente superiores a 1 denotan una distribución agrupada, donde la caminata aleatoria no es suficiente para sofocar el atractivo potencial entre partículas.

Historia [ editar ]

El primero en discutir el uso de una prueba para detectar desviaciones de una distribución binomial o de Poisson parece haber sido Lexis en 1877. Una de las pruebas que desarrolló fue la relación Lexis .

Este índice fue utilizado por primera vez en botánica por Clapham en 1936.

Si las variables tienen una distribución de Poisson, entonces el índice de dispersión se distribuye como un estadístico χ 2 con n - 1 grados de libertad cuando n es grande y es μ > 3. [6] Para muchos casos de interés, esta aproximación es precisa y Fisher en 1950 derivó una prueba exacta para ello.

Hoel estudió los primeros cuatro momentos de su distribución. [7] Encontró que la aproximación al estadístico χ 2 es razonable si μ > 5.

Distribuciones sesgadas [ editar ]

Para distribuciones muy sesgadas, puede ser más apropiado utilizar una función de pérdida lineal, en lugar de una cuadrática. El coeficiente de dispersión análogo en este caso es la relación de la desviación absoluta promedio de la mediana a la mediana de los datos, [8] o, en símbolos:

donde n es el tamaño de la muestra, m es la mediana de la muestra y la suma de toda la muestra. Iowa , Nueva York y Dakota del Sur utilizan este coeficiente lineal de dispersión para estimar las cuotas tributarias. [9] [10] [11]

Para una prueba de dos muestras en la que los tamaños de muestra son grandes, ambas muestras tienen la misma mediana y difieren en la dispersión a su alrededor, un intervalo de confianza para el coeficiente lineal de dispersión está limitado inferiormente por

donde t j es la desviación absoluta media de la j- ésima muestra y z α es la longitud del intervalo de confianza para una distribución normal de confianza α (por ejemplo, para α = 0,05, z α = 1,96). [8]

Ver también [ editar ]

  • Contar datos
  • Significado armonico

Proporciones similares [ editar ]

  • Coeficiente de variación ,
  • Momento estandarizado ,
  • Factor Fano , (VMR con ventana)
  • Relación señal a ruido , (en el procesamiento de señales )
    • Relación señal / ruido (procesamiento de imágenes)

Notas [ editar ]

  1. ^ Cox y Lewis (1966)
  2. ^ Cox y Lewis (1966), p72
  3. ^ Cox y Lewis (1966), p71
  4. ^ Cox y Lewis (1966), p158
  5. ^ Upton & Cook (2006), bajo índice de dispersión
  6. ^ Frome, EL (1982). "Algoritmo como 171: prueba de varianza exacta de Fisher para la distribución de Poisson". Revista de la Sociedad Real de Estadística, Serie C . 31 (1): 67–71. JSTOR  2347079 .
  7. ^ Hoel, PG (1943). "Sobre índices de dispersión" . Anales de estadística matemática . 14 (2): 155-162. doi : 10.1214 / aoms / 1177731457 . JSTOR 2235818 . 
  8. ^ a b Bonett, DG; Seier, E (2006). "Intervalo de confianza para un coeficiente de dispersión en distribuciones no normales". Revista biométrica . 48 (1): 144-148. doi : 10.1002 / bimj.200410148 . PMID 16544819 . 
  9. ^ "Definiciones de cálculo estadístico para valoración masiva" (PDF) . Iowa.gov . Archivado desde el original (PDF) el 11 de noviembre de 2010. Razón mediana: La razón ubicada a medio camino entre la razón más alta y la razón más baja cuando las razones individuales para una clase de bienes raíces se clasifican en orden ascendente o descendente. La proporción mediana se usa con mayor frecuencia para determinar el nivel de evaluación para una clase determinada de bienes raíces.
  10. ^ "Equidad de evaluación en Nueva York: resultados de la encuesta de valor de mercado de 2010" . Archivado desde el original el 6 de noviembre de 2012.
  11. ^ "Resumen del proceso de evaluación" (PDF) . state.sd.us . Departamento de Ingresos de Dakota del Sur - División de impuestos especiales / sobre la propiedad. Archivado desde el original (PDF) el 10 de mayo de 2009.

Referencias [ editar ]

  • Cox, RD; Lewis, PAW (1966). El análisis estadístico de series de eventos . Londres: Methuen.
  • Upton, G .; Cook, I. (2006). Diccionario de Estadística de Oxford (2ª ed.). Prensa de la Universidad de Oxford. ISBN 978-0-19-954145-4.