Inferencia algorítmica

La inferencia algorítmica reúne nuevos desarrollos en los métodos de inferencia estadística hechos factibles por los poderosos dispositivos de computación ampliamente disponibles para cualquier analista de datos. Piedras angulares en este campo son la teoría computacional de aprendizaje , la computación granular , bioinformática , y, hace mucho tiempo, la probabilidad estructural ( Fraser 1966 ). El enfoque principal está en los algoritmos que calculan estadísticas que basan el estudio de un fenómeno aleatorio, junto con la cantidad de datos de los que deben alimentarse para producir resultados confiables. Esto cambia el interés de los matemáticos del estudio de las leyes de distribución a las propiedades funcionales de las estadísticas.y el interés de los informáticos desde los algoritmos para procesar datos hasta la información que procesan.

El problema de la inferencia paramétrica de Fisher

Con respecto a la identificación de los parámetros de una ley de distribución, el lector maduro puede recordar largas disputas a mediados del siglo XX sobre la interpretación de su variabilidad en términos de distribución fiducial ( Fisher 1956 ), probabilidades estructurales ( Fraser 1966 ), anteriores / posteriores ( Ramsey 1925 ), y así sucesivamente. Desde el punto de vista de la epistemología , esto implicó una disputa complementaria en cuanto a la naturaleza de la probabilidad : ¿es una característica física de los fenómenos que se describe a través de variables aleatorias o una forma de sintetizar datos sobre un fenómeno? Al optar por lo último, Fisher define una ley de distribución fiducial de los parámetros de una variable aleatoria dada que deduce de una muestra de sus especificaciones. Con esta ley calcula, por ejemplo, “la probabilidad de que μ (media de una variable gaussiana - nuestra nota) sea menor que cualquier valor asignado, o la probabilidad de que se encuentre entre cualquier valor asignado, o, en resumen, su distribución de probabilidad, a la luz de la muestra observada ”.

La solución clásica

Fisher luchó duro para defender la diferencia y superioridad de su noción de distribución de parámetros en comparación con nociones análogas, como la distribución posterior de Bayes , la probabilidad constructiva de Fraser y los intervalos de confianza de Neyman . Durante medio siglo, los intervalos de confianza de Neyman ganaron a todos los efectos prácticos, acreditando la naturaleza fenomenológica de la probabilidad. Con esta perspectiva, cuando se trata de una variable gaussiana, su media μ está fijada por las características físicas del fenómeno que está observando, donde las observaciones son operadores aleatorios, por lo que los valores observados son especificaciones de una muestra aleatoria . Debido a su aleatoriedad, puede calcular a partir de la muestra los intervalos específicos que contienen el μ fijo con una probabilidad dada que denota confianza .

Ejemplo

Sea X una variable gaussiana ^[1] con parámetros ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ sigma ^ {2}}$ y ${\ Displaystyle \ {X_ {1}, \ ldots, X_ {m} \}}$ una muestra extraída de él. Trabajar con estadísticas

{\ Displaystyle S _ {\ mu} = \ sum _ {i = 1} ^ {m} X_ {i}}

y

{\ Displaystyle S _ {\ sigma ^ {2}} = \ sum _ {i = 1} ^ {m} (X_ {i} - {\ overline {X}}) ^ {2}, {\ text {donde} } {\ overline {X}} = {\ frac {S _ {\ mu}} {m}}}

es la media muestral, reconocemos que

{\ Displaystyle T = {\ frac {S _ {\ mu} -m \ mu} {\ sqrt {S _ {\ sigma ^ {2}}}}} {\ sqrt {\ frac {m-1} {m}} } = {\ frac {{\ overline {X}} - \ mu} {\ sqrt {S _ {\ sigma ^ {2}} / (m (m-1))}}}}

sigue una distribución t de Student ( Wilks 1962 ) con parámetro (grados de libertad) m - 1, de modo que

{\ Displaystyle f_ {T} (t) = {\ frac {\ Gamma (m / 2)} {\ Gamma ((m-1) / 2)}} {\ frac {1} {\ sqrt {\ pi ( m-1)}}} \ left (1 + {\ frac {t ^ {2}} {m-1}} \ right) ^ {m / 2}.}

Calibrar T entre dos cuantiles e invertir su expresión en función de ${\ Displaystyle \ mu}$ obtienes intervalos de confianza para ${\ Displaystyle \ mu}$ .

Con la especificación de muestra:

{\ Displaystyle \ mathbf {x} = \ {7.14,6.3,3.9,6.46,0.2,2.94,4.14,4.69,6.02,1.58 \}}

teniendo un tamaño m = 10, calcula las estadísticas ${\ Displaystyle s _ {\ mu} = 43,37}$ y ${\ Displaystyle s _ {\ sigma ^ {2}} = 46.07}$ , y obtenga un intervalo de confianza de 0.90 para ${\ Displaystyle \ mu}$ con extremos (3.03, 5.65).

Inferir funciones con la ayuda de una computadora

Desde una perspectiva de modelización, toda la disputa parece un dilema del huevo y la gallina: o datos fijos por primera y distribución de probabilidad de sus propiedades como consecuencia, o propiedades fijas por primera y distribución de probabilidad de los datos observados como corolario. La solución clásica tiene un beneficio y un inconveniente. Lo primero fue apreciado especialmente en la época en que la gente todavía hacía cálculos con una hoja y un lápiz. En sí, la tarea de calcular un intervalo de confianza de Neyman para el parámetro fijo θ es difícil: no sabe θ, pero busca disponer alrededor de él un intervalo con una probabilidad muy baja de fallar. La solución analítica está permitida para un número muy limitado de casos teóricos. A la inversa, una gran variedad de casos pueden resolverse rápidamente de forma aproximada a través del teorema del límite central en términos de intervalo de confianza alrededor de una distribución gaussiana: ese es el beneficio. El inconveniente es que el teorema del límite central es aplicable cuando el tamaño de la muestra es suficientemente grande. Por lo tanto, es cada vez menos aplicable con la muestra involucrada en instancias de inferencia modernas. La falla no está en el tamaño de la muestra por sí misma. Más bien, este tamaño no es lo suficientemente grande debido a la complejidad del problema de inferencia.

Con la disponibilidad de grandes instalaciones informáticas, los científicos se reorientaron de la inferencia de parámetros aislados a la inferencia de funciones complejas, es decir, re conjuntos de parámetros altamente anidados que identifican funciones. En estos casos hablamos de aprendizaje de funciones (en términos, por ejemplo, de regresión , sistema neuro-difuso o aprendizaje computacional ) sobre la base de muestras altamente informativas. Un primer efecto de tener una estructura compleja que vincule datos es la reducción del número de grados de libertad de la muestra , es decir, la quema de una parte de los puntos de muestra, de modo que el tamaño de muestra efectivo a considerar en el teorema del límite central es demasiado pequeño. Centrándonos en el tamaño de la muestra asegurando un error de aprendizaje limitado con un nivel de confianza dado , la consecuencia es que el límite inferior de este tamaño crece con índices de complejidad como la dimensión VC o el detalle de una clase a la que pertenece la función que queremos aprender.

Ejemplo

Una muestra de 1000 bits independientes es suficiente para asegurar un error absoluto de como máximo 0,081 en la estimación del parámetro p de la variable de Bernoulli subyacente con una confianza de al menos 0,99. El mismo tamaño no puede garantizar un umbral menor a 0.088 con la misma confianza 0.99 cuando el error se identifica con la probabilidad de que un hombre de 20 años que vive en Nueva York no se ajuste a los rangos de altura, peso y cintura observados en 1,000 Big Habitantes de Apple. La escasez de precisión se debe a que tanto la dimensión VC como el detalle de la clase de paralelepípedos, entre los que cae el observado de los rangos de 1.000 habitantes, son iguales a 6.

El problema de inversión general que resuelve la pregunta de Fisher

Con muestras insuficientemente grandes, el enfoque: muestra fija - propiedades aleatorias sugiere procedimientos de inferencia en tres pasos:

1.

Mecanismo de muestreo . Consiste en un par

{\ displaystyle (Z, g _ {\ boldsymbol {\ theta}})}

, donde la semilla Z es una variable aleatoria sin parámetros desconocidos, mientras que la función explicativa

{\ displaystyle g _ {\ boldsymbol {\ theta}}}

es un mapeo de funciones de muestras de Z a muestras de la variable aleatoria X que nos interesa. El vector de parámetros

{\ displaystyle {\ boldsymbol {\ theta}}}

es una especificación del parámetro aleatorio

{\ Displaystyle \ mathbf {\ Theta}}

. Sus componentes son los parámetros de la ley de distribución X. El Teorema de la Transformada Integral asegura la existencia de tal mecanismo para cada X (escalar o vector) cuando la semilla coincide con la variable aleatoria U distribuida uniformemente en

{\ Displaystyle [0,1]}

.

Ejemplo.

Para X siguiendo una distribución de Pareto con parámetros a y k , es decir

{\ Displaystyle F_ {X} (x) = \ left (1 - {\ frac {k} {x}} ^ {a} \ right) I _ {[k, \ infty)} (x),}

un mecanismo de muestreo ${\ Displaystyle (U, g _ {(a, k)})}$ para X con semilla U dice:

{\ Displaystyle g _ {(a, k)} (u) = k (1-u) ^ {- {\ frac {1} {a}}},}

o equivalente, ${\ Displaystyle g _ {(a, k)} (u) = ku ^ {- 1 / a}.}$

2.

Ecuaciones maestras . La conexión real entre el modelo y los datos observados se expresa en términos de un conjunto de relaciones entre las estadísticas sobre los datos y los parámetros desconocidos que vienen como corolario de los mecanismos de muestreo. A estas relaciones las llamamos ecuaciones maestras . Girando alrededor de la estadística

{\ Displaystyle s = h (x_ {1}, \ ldots, x_ {m}) = h (g _ {\ boldsymbol {\ theta}} (z_ {1}), \ ldots, g _ {\ boldsymbol {\ theta} } (z_ {m}))}

, la forma general de una ecuación maestra es:

{\ Displaystyle s = \ rho ({\ boldsymbol {\ theta}}; z_ {1}, \ ldots, z_ {m})}

.

Con estas relaciones podemos inspeccionar los valores de los parámetros que podrían haber generado una muestra con la estadística observada de una configuración particular de las semillas que representan la semilla de la muestra. Por tanto, a la población de semillas de muestra corresponde una población de parámetros. Para asegurar que esta población tenga propiedades limpias, es suficiente extraer aleatoriamente los valores semilla e involucrar estadísticas suficientes o, simplemente, estadísticas de buen comportamiento con los parámetros, en las ecuaciones maestras.

Por ejemplo, las estadísticas ${\ Displaystyle s_ {1} = \ sum _ {i = 1} ^ {m} \ log x_ {i}}$ y ${\ Displaystyle s_ {2} = \ min _ {i = 1, \ ldots, m} \ {x_ {i} \}}$ demostrar ser suficiente para los parámetros a y k de un Pareto variable aleatoria X . Gracias al (forma equivalente del) mecanismo de muestreo ${\ Displaystyle g _ {(a, k)}}$ podemos leerlos como

{\ Displaystyle s_ {1} = m \ log k + 1 / a \ sum _ {i = 1} ^ {m} \ log u_ {i}}

{\ Displaystyle s_ {2} = \ min _ {i = 1, \ ldots, m} \ {ku_ {i} ^ {- {\ frac {1} {a}}} \},}

respectivamente.

3.

Población de parámetros . Habiendo fijado un conjunto de ecuaciones maestras, puede mapear semillas de muestra en parámetros ya sea numéricamente a través de un arranque de población o analíticamente a través de un argumento retorcido . Por tanto, a partir de una población de semillas se obtiene una población de parámetros.

Ejemplo.

De la ecuación maestra anterior podemos dibujar un par de parámetros,

{\ Displaystyle (a, k)}

, compatible con la muestra observada resolviendo el siguiente sistema de ecuaciones:

{\ Displaystyle a = {\ frac {\ sum \ log u_ {i} -m \ log \ min \ {u_ {i} \}} {s_ {1} -m \ log s_ {2}}}.}

{\ Displaystyle k = \ mathrm {e} ^ {\ frac {as_ {1} - \ sum \ log u_ {i}} {ma}}}

dónde ${\ Displaystyle s_ {1}}$ y ${\ Displaystyle s_ {2}}$ son las estadísticas observadas y ${\ Displaystyle u_ {1}, \ ldots, u_ {m}}$ un conjunto de semillas uniformes. Al transferir a los parámetros la probabilidad (densidad) que afecta a las semillas, se obtiene la ley de distribución de los parámetros aleatorios A y K compatible con las estadísticas que ha observado.

La compatibilidad denota parámetros de poblaciones compatibles, es decir, de poblaciones que podrían haber generado una muestra que dé lugar a las estadísticas observadas. Puede formalizar esta noción de la siguiente manera:

Definición

Para una variable aleatoria y una muestra extraída de ella, distribución compatible es una distribución que tiene el mismo mecanismo de muestreo ${\ Displaystyle {\ mathcal {M}} _ {X} = (Z, g _ {\ boldsymbol {\ theta}})}$ de X con un valor ${\ displaystyle {\ boldsymbol {\ theta}}}$ del parámetro aleatorio ${\ Displaystyle \ mathbf {\ Theta}}$ derivado de una ecuación maestra basada en una estadística de buen comportamiento s .

Ejemplo

Función de distribución acumulativa empírica conjunta de parámetros

{\ Displaystyle (A, K)}

de una variable aleatoria de Pareto.

Función de distribución acumulada de la media M de una variable aleatoria gaussiana

Puede encontrar la ley de distribución de los parámetros de Pareto A y K como un ejemplo de implementación del método de arranque de población como en la figura de la izquierda.

Implementando el método de argumento retorcido , obtienes la ley de distribución ${\ Displaystyle F_ {M} (\ mu)}$ de la media M de una variable gaussiana X sobre la base del estadístico ${\ Displaystyle s_ {M} = \ sum _ {i = 1} ^ {m} x_ {i}}$ Cuándo ${\ Displaystyle \ Sigma ^ {2}}$ se sabe que es igual a ${\ Displaystyle \ sigma ^ {2}}$ ( Apolloni, Malchiodi y Gaito 2006 ). Su expresión es:

{\ Displaystyle F_ {M} (\ mu) = \ Phi \ left ({\ frac {m \ mu -s_ {M}} {\ sigma {\ sqrt {m}}}} \ right),}

se muestra en la figura de la derecha, donde ${\ Displaystyle \ Phi}$ es la función de distribución acumulada de una distribución normal estándar .

Extremos superior (curva púrpura) e inferior (curva azul) de un intervalo de confianza del 90% de la media M de una variable aleatoria gaussiana para un intervalo fijo

{\ Displaystyle \ sigma}

y diferentes valores del estadístico s _m .

Calcular un intervalo de confianza para M dada su función de distribución es sencillo: solo necesitamos encontrar dos cuantiles (por ejemplo ${\ Displaystyle \ delta / 2}$ y ${\ Displaystyle 1- \ delta / 2}$ cuantiles en caso de que estemos interesados en un intervalo de confianza de nivel δ simétrico en las probabilidades de la cola) como se indica a la izquierda en el diagrama que muestra el comportamiento de los dos límites para diferentes valores del estadístico s _m .

El talón de Aquiles del enfoque de Fisher radica en la distribución conjunta de más de un parámetro, digamos la media y la varianza de una distribución gaussiana. Por el contrario, con el último enfoque (y los métodos mencionados anteriormente: arranque de población y argumento de torsión ) podemos aprender la distribución conjunta de muchos parámetros. Por ejemplo, centrándonos en la distribución de dos o muchos más parámetros, en las figuras siguientes informamos dos regiones de confianza donde la función a aprender cae con una confianza del 90%. El primero se refiere a la probabilidad con la que una máquina de vectores de soporte extendido atribuye una etiqueta binaria 1 a los puntos del ${\ Displaystyle (x, y)}$ avión. Las dos superficies se dibujan sobre la base de un conjunto de puntos de muestra etiquetados a su vez de acuerdo con una ley de distribución específica ( Apolloni et al. 2008 ). Este último se refiere a la región de confianza de la tasa de riesgo de recurrencia del cáncer de mama calculada a partir de una muestra censurada ( Apolloni, Malchiodi y Gaito 2006 ).

Región de confianza del 90% para la familia de máquinas de vectores de soporte dotadas con la función de perfil de tangente hiperbólica

Región de confianza del 90% para la función de riesgo de recurrencia del cáncer de mama calculada a partir de la muestra censurada

{\ displaystyle t = (9,13,> 13,18,12,23,31,34,> 45,48,> 161), \,}

con> t denotando un tiempo censurado

Notas

^ De forma predeterminada, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las letras minúsculas ( u , x ) sus especificaciones correspondientes.

Referencias

Fraser, DAS (1966), "Probabilidad estructural y generalización", Biometrika , 53 (1/2): 1–9, doi : 10.2307 / 2334048 , JSTOR 2334048 .
Fisher, MA (1956), Métodos estadísticos e inferencia científica , Edimburgo y Londres: Oliver y Boyd
Apolloni, B .; Malchiodi, D .; Gaito, S. (2006), Inferencia algorítmica en el aprendizaje automático , Serie internacional sobre inteligencia avanzada, 5 (2a ed.), Adelaide: Magill, Advanced Knowledge International
Apolloni, B .; Bassis, S .; Malchiodi, D .; Witold, P. (2008), The Puzzle of Granular Computing , Studies in Computational Intelligence, 138 , Berlín: Springer, ISBN 9783540798637
Ramsey, FP (1925), "Los fundamentos de las matemáticas", Actas de la London Mathematical Society : 338–384, doi : 10.1112 / plms / s2-25.1.338 .
Wilks, SS (1962), Estadística matemática , Publicaciones de Wiley en Estadística, Nueva York: John Wiley

[1] De forma predeterminada, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las letras minúsculas ( u , x ) sus especificaciones correspondientes.

[1]