Variables aleatorias independientes e idénticamente distribuidas


De Wikipedia, la enciclopedia libre
  (Redirigido desde Iid )
Saltar a navegación Saltar a búsqueda

En la teoría de la probabilidad y la estadística , una colección de variables aleatorias es independiente y se distribuye de manera idéntica si cada variable aleatoria tiene la misma distribución de probabilidad que las demás y todas son mutuamente independientes . [1] Esta propiedad generalmente se abrevia como iid o iid o IID . En este documento, se utiliza iid , porque es el más frecuente.

Introducción

En estadística , se asume comúnmente que las observaciones en una muestra son efectivamente iid. El supuesto (o requisito) de que las observaciones sean iid tiende a simplificar las matemáticas subyacentes de muchos métodos estadísticos (ver estadística matemática y teoría estadística ). En aplicaciones prácticas de modelos estadísticos , sin embargo, la suposición puede ser realista o no. [2] Para probar parcialmente qué tan realista es la suposición en un conjunto de datos dado, se puede calcular la correlación , trazar gráficos de retardo o realizar una prueba de punto de inflexión . [3] La generalización deLas variables aleatorias intercambiables suelen ser suficientes y se cumplen más fácilmente.

El supuesto iid es importante en la forma clásica del teorema del límite central , que establece que la distribución de probabilidad de la suma (o promedio) de las variables iid con varianza finita se aproxima a una distribución normal .

A menudo, el supuesto iid surge en el contexto de secuencias de variables aleatorias. Entonces, "independiente e idénticamente distribuido" implica que un elemento en la secuencia es independiente de las variables aleatorias que le precedieron. De esta manera, una secuencia iid es diferente de una secuencia de Markov , donde la distribución de probabilidad para el n º variable aleatoria es una función de la variable aleatoria anterior en la secuencia (para una primera orden de la secuencia de Markov). Una secuencia iid no implica que las probabilidades de todos los elementos del espacio muestral o del espacio de eventos deban ser iguales. [4] Por ejemplo, los lanzamientos repetidos de dados cargados producirán una secuencia que es iid, a pesar de que los resultados estén sesgados.

Definición

Definición de dos variables aleatorias

Suponga que las variables aleatorias y están definidas para asumir valores en . Sean y las funciones de distribución acumulativa de y , respectivamente, y denoten su función de distribución acumulada conjunta por .

Dos variables aleatorias y se distribuyen de forma idéntica si y solo si [5] .

Dos variables aleatorias y son independientes si y solo si . (Ver más Independencia (teoría de la probabilidad) § Dos variables aleatorias ).

Dos variables aleatorias y son iid si son independientes e idénticamente distribuidas, es decir, si y solo si

Definición de más de dos variables aleatorias

La definición se extiende naturalmente a más de dos variables aleatorias. Decimos que las variables aleatorias son iid si son independientes (ver más Independencia (teoría de la probabilidad) # Más de dos variables aleatorias ) y distribuidas de manera idéntica, es decir, si y solo si

donde denota la función de distribución acumulativa conjunta de .

Ejemplos de

Los siguientes son ejemplos o aplicaciones de variables aleatorias iid:

  • Una secuencia de resultados de giros de una rueda de ruleta justa o injusta es iid. Una implicación de esto es que si la bola de la ruleta cae en "rojo", por ejemplo, 20 veces seguidas, el siguiente giro no es más o menos probable que lo haga. ser "negro" que en cualquier otro giro (ver la falacia del jugador ).
  • Una secuencia de tiradas de dados justos o cargados es iid
  • Una secuencia de lanzamientos de monedas justas o injustas es iid.
  • En el procesamiento de señales y procesamiento de imágenes, la noción de transformación a iid implica dos especificaciones, la parte "id" (id = idénticamente distribuida) y la "i". (i. = independiente) parte:
    • (id) el nivel de la señal debe estar equilibrado en el eje del tiempo;
    • (i.) el espectro de la señal debe aplanarse, es decir, transformar mediante filtrado (como la deconvolución ) en una señal de ruido blanco (es decir, una señal en la que todas las frecuencias estén igualmente presentes).

Los siguientes son ejemplos de muestreo de datos que no satisfacen el supuesto de iid:

  • En un conjunto de datos médicos en el que se toman varias muestras de varios pacientes, es muy probable que las muestras de los mismos pacientes estén correlacionadas.
  • Muestras extraídas de procesos dependientes del tiempo, por ejemplo, datos censales anuales.

Generalizaciones

Muchos resultados que se probaron por primera vez bajo el supuesto de que las variables aleatorias son iid han demostrado ser ciertos incluso bajo un supuesto distributivo más débil.

Variables aleatorias intercambiables

La noción más general que comparte las principales propiedades de las variables iid son las variables aleatorias intercambiables , introducida por Bruno de Finetti . [ cita requerida ] Intercambiabilidad significa que si bien las variables pueden no ser independientes, las futuras se comportan como las pasadas - formalmente, cualquier valor de una secuencia finita es tan probable como cualquier permutación de esos valores - la distribución de probabilidad conjunta es invariante bajo el grupo simétrico .

Esto proporciona una generalización útil: por ejemplo, el muestreo sin reemplazo no es independiente, pero es intercambiable.

Proceso Lévy

En el cálculo estocástico , las variables iid se consideran un proceso de Lévy de tiempo discreto : cada variable da cuánto cambia uno de un momento a otro. Por ejemplo, una secuencia de ensayos de Bernoulli se interpreta como el proceso de Bernoulli . Se puede generalizar esto para incluir procesos de Lévy en tiempo continuo, y muchos procesos de Lévy pueden verse como límites de variables iid; por ejemplo, el proceso de Wiener es el límite del proceso de Bernoulli.

En aprendizaje automático

En la teoría del aprendizaje automático, a menudo se asume que los conjuntos de datos de entrenamiento implican que todas las muestras provienen del mismo proceso generativo y que se supone que el proceso generativo no tiene memoria de muestras generadas en el pasado.

Ver también

  • Teorema de de Finetti
  • Variables independientes por pares
  • Teorema del límite central

Referencias

Citas

  1. ^ Clauset, Aaron (2011). "Una breve introducción a las distribuciones de probabilidad" (PDF) . Instituto Santa Fe .
  2. ^ Hampel, Frank (1998), "¿Es la estadística demasiado difícil?" , Canadian Journal of Statistics , 26 (3): 497–513, doi : 10.2307 / 3315772 , hdl : 20.500.11850 / 145503 , JSTOR 3315772  (§8).
  3. ^ Le Boudec, Jean-Yves (2010). Evaluación del desempeño de sistemas informáticos y de comunicación (PDF) . Prensa EPFL . págs. 46–47. ISBN  978-2-940222-40-7. Archivado desde el original (PDF) el 12 de octubre de 2013 . Consultado el 14 de junio de 2013 .
  4. ^ Portada, TM; Thomas, JA (2006). Elementos de la teoría de la información . Wiley-Interscience . págs. 57–58. ISBN 978-0-471-24195-9.
  5. ^ Casella y Berger 2002 , Teorema 1.5.10

Fuentes

  • Casella, George ; Berger, Roger L. (2002), Inferencia estadística , Serie avanzada de Duxbury
Obtenido de " https://en.wikipedia.org/w/index.php?title=Independent_and_identically_distributed_random_variables&oldid=1017206855 "