Muestreo por transformada inversa


El muestreo por transformada inversa (también conocido como muestreo por inversión , la transformada integral de probabilidad inversa , el método de transformación inversa , la transformada de Smirnov o la regla de oro [1] ) es un método básico para el muestreo de números pseudoaleatorios , es decir, para generar números de muestra en aleatoria de cualquier distribución de probabilidad dada su función de distribución acumulativa .

El muestreo por transformación inversa toma muestras uniformes de un número entre 0 y 1, interpretado como una probabilidad, y luego devuelve el número más grande del dominio de la distribución tal que . Por ejemplo, imagine que es la distribución normal estándar con media cero y desviación estándar uno. La siguiente tabla muestra muestras tomadas de la distribución uniforme y su representación en la distribución normal estándar.

Estamos eligiendo aleatoriamente una proporción del área bajo la curva y devolviendo el número en el dominio tal que exactamente esta proporción del área se encuentre a la izquierda de ese número. Intuitivamente, es poco probable que elijamos un número en el otro extremo de las cruces porque hay muy poca área en ellas que requeriría elegir un número muy cercano a cero o uno.

Computacionalmente, este método implica calcular la función cuantil de la distribución; en otras palabras, calcular la función de distribución acumulada (CDF) de la distribución (que asigna un número en el dominio a una probabilidad entre 0 y 1) y luego invertir esa función. Esta es la fuente del término "inverso" o "inversión" en la mayoría de los nombres de este método. Tenga en cuenta que para una distribución discreta , calcular la CDF en general no es demasiado difícil: simplemente sumamos las probabilidades individuales para los distintos puntos de la distribución. Sin embargo, para una distribución continua , necesitamos integrar la función de densidad de probabilidad(PDF) de la distribución, lo que es imposible de hacer analíticamente para la mayoría de las distribuciones (incluida la distribución normal ). Como resultado, este método puede ser computacionalmente ineficiente para muchas distribuciones y se prefieren otros métodos; sin embargo, es un método útil para crear muestreadores de aplicación más general, como los que se basan en el muestreo por rechazo .

Para la distribución normal , la falta de una expresión analítica para la función cuantil correspondiente significa que se pueden preferir computacionalmente otros métodos (p. ej., la transformada de Box-Muller ). Suele ocurrir que, incluso para distribuciones simples, el método de muestreo por transformada inversa se puede mejorar en: [2] véase, por ejemplo, el algoritmo de ziggurat y el muestreo por rechazo . Por otro lado, es posible aproximar la función de cuantiles de la distribución normal con extrema precisión utilizando polinomios de grado moderado y, de hecho, el método para hacerlo es lo suficientemente rápido como para que el muestreo por inversión sea ahora el método predeterminado para el muestreo de una distribución normal. en el paquete estadísticor _ [3]


Muestreo por transformada inversa para distribución normal
Gráfico de la técnica de inversión de a . En la parte inferior derecha vemos la función regular y en la parte superior izquierda su inversión.
Esquema del muestreo por transformada inversa. La función inversa de puede ser definida por .
Una animación de cómo el muestreo por transformada inversa genera valores aleatorios distribuidos normalmente a partir de valores aleatorios distribuidos uniformemente
Los números aleatorios yi se generan a partir de una distribución uniforme entre 0 y 1, es decir, Y ~ U(0, 1). Se dibujan como puntos coloreados en el eje y. Cada uno de los puntos se mapea de acuerdo con x=F −1 (y), que se muestra con flechas grises para dos puntos de ejemplo. En este ejemplo, hemos utilizado una distribución exponencial. Por lo tanto, para x ≥ 0, la densidad de probabilidad es y la función de distribución acumulada es . Por lo tanto, . Podemos ver que usando este método, muchos puntos terminan cerca de 0 y solo unos pocos puntos terminan teniendo valores altos de x, tal como se espera para una distribución exponencial.