De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En estadística , teoría de la probabilidad y teoría de la información , una distancia estadística cuantifica la distancia entre dos objetos estadísticos, que pueden ser dos variables aleatorias o dos distribuciones de probabilidad o muestras , o la distancia puede ser entre un punto de muestra individual y una población o muestra más amplia de puntos.

Una distancia entre poblaciones se puede interpretar como una medida de la distancia entre dos distribuciones de probabilidad y, por lo tanto, son esencialmente medidas de distancias entre medidas de probabilidad . Cuando las medidas de distancia estadística se relacionan con las diferencias entre variables aleatorias , estas pueden tener dependencia estadística , [1] y, por lo tanto, estas distancias no están directamente relacionadas con las medidas de distancias entre medidas de probabilidad. Nuevamente, una medida de distancia entre variables aleatorias puede relacionarse con el grado de dependencia entre ellas, más que con sus valores individuales.

Las medidas estadísticas de distancia no son en su mayoría métricas y no necesitan ser simétricas. Algunos tipos de medidas de distancia se denominan divergencias (estadísticas) .

Terminología [ editar ]

Se utilizan muchos términos para referirse a diversas nociones de distancia; estos son a menudo confusamente similares y pueden usarse de manera inconsistente entre los autores y con el tiempo, ya sea de forma flexible o con un significado técnico preciso. Además de "distancia", términos similares incluyen desviación , desviación , discrepancia , discriminación y divergencia , así como otros como función de contraste y métrica . Los términos de la teoría de la información incluyen entropía cruzada , entropía relativa , discriminación de información y ganancia de información .

Distancias como métricas [ editar ]

Métricas [ editar ]

Una métrica en un conjunto X es una función (llamada función de distancia o simplemente distancia )

d  : X × XR + (donde R + es el conjunto de números reales no negativos ). Para todo x , y , z en X , esta función es necesaria para satisfacer las siguientes condiciones:

  1. d ( x , y ) ≥ 0 ( no negatividad )
  2. d ( x , y ) = 0 si y solo si   x = y     ( identidad de indiscernibles . Tenga en cuenta que las condiciones 1 y 2 juntas producen una definición positiva )
  3. d ( x , y ) = d ( y , x ) ( simetría )
  4. d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( subaditividad / desigualdad triangular ).

Métricas generalizadas [ editar ]

Muchas distancias estadísticas no son métricas porque carecen de una o más propiedades de las métricas adecuadas. Por ejemplo, la pseudometría viola la propiedad de "definición positiva " (alternativamente, "identidad de indescernibles" ) (1 y 2 arriba); los cuasimétricos violan la propiedad de simetría (3); y los semimétricos violan la desigualdad del triángulo (4). Las distancias estadísticas que satisfacen (1) y (2) se denominan divergencias .

Ejemplos [ editar ]

Algunas distancias estadísticas importantes incluyen las siguientes:

  • f-divergencia : incluye
    • Divergencia de Kullback-Leibler
    • Distancia Hellinger
    • Distancia de variación total (a veces llamada simplemente "la" distancia estadística)
  • La divergencia de Rényi
  • Divergencia Jensen-Shannon
  • Métrica de Lévy-Prokhorov
  • Distancia de Bhattacharyya
  • Métrica de Wasserstein : también conocida como métrica de Kantorovich o distancia del movimiento de tierra
  • El estadístico de Kolmogorov-Smirnov representa una distancia entre dos distribuciones de probabilidad definidas en una sola variable real.
  • La discrepancia media máxima que se define en términos de la incrustación de distribuciones del kernel

Otros enfoques

  • Distancia de relación señal-ruido
  • Distancia de Mahalanobis
  • Distancia de energía
    • La correlación de distancia es una medida de dependencia entre dos variables aleatorias , es cero si y solo si las variables aleatorias son independientes.
  • La puntuación de probabilidad clasificada continua mide qué tan bien los pronósticos que se expresan como distribuciones de probabilidad coinciden con los resultados observados. Tanto la ubicación como la extensión de la distribución del pronóstico se tienen en cuenta al juzgar qué tan cerca está la distribución del valor observado: consulte el pronóstico probabilístico .
  • La métrica de Łukaszyk – Karmowski es una función que define una distancia entre dos variables aleatorias o dos vectores aleatorios . No satisface la condición de identidad de indiscernibles de la métrica y es cero si y solo si ambos argumentos son ciertos eventos descritos por las funciones de distribución de probabilidad de densidad delta de Dirac .

Ver también [ editar ]

  • Espacio métrico probabilístico

Notas [ editar ]

  1. ^ Dodge, Y. (2003) —entrada para distancia

Enlaces externos [ editar ]

  • Medidas de distancia y similitud (Wolfram Alpha)

Referencias [ editar ]

  • Dodge, Y. (2003) Diccionario Oxford de términos estadísticos , OUP. ISBN  0-19-920613-9