Modelo de mezcla


En estadística , un modelo mixto es un modelo probabilístico para representar la presencia de subpoblaciones dentro de una población general, sin requerir que un conjunto de datos observados identifique la subpoblación a la que pertenece una observación individual. Formalmente, un modelo de mezcla corresponde a la distribución de mezcla que representa la distribución de probabilidad de las observaciones en la población general. Sin embargo, mientras que los problemas asociados con las "distribuciones de mezcla" se relacionan con la derivación de las propiedades de la población general a partir de las de las subpoblaciones, los "modelos de mezcla" se utilizan para hacer inferencias estadísticas. sobre las propiedades de las subpoblaciones dadas solo observaciones sobre la población agrupada, sin información de identidad de la subpoblación.

Los modelos de mezcla no deben confundirse con modelos para datos de composición , es decir, datos cuyos componentes están restringidos a sumar un valor constante (1, 100%, etc.). Sin embargo, los modelos de composición se pueden considerar como modelos mixtos, en los que los miembros de la población se muestrean al azar. Por el contrario, los modelos de mezcla se pueden considerar como modelos de composición, donde el tamaño total de la población de lectura se ha normalizado a 1.

Modelo de mezcla general

Un modelo típico de mezcla de dimensiones finitas es un modelo jerárquico que consta de los siguientes componentes:

  • N variables aleatorias que se observan, cada una distribuida según una mezcla de K componentes, con los componentes pertenecientes a la misma familia paramétrica de distribuciones (por ejemplo, todas normales , todas Zipfian , etc.) pero con parámetros diferentes
  • N variables latentes aleatorias que especifican la identidad del componente de mezcla de cada observación, cada una distribuida según una distribución categórica K -dimensional
  • Un conjunto de K pesos de mezcla, que son probabilidades que suman 1.
  • Un conjunto de K parámetros, cada uno de los cuales especifica el parámetro del componente de mezcla correspondiente. En muchos casos, cada "parámetro" es en realidad un conjunto de parámetros. Por ejemplo, si los componentes de la mezcla son distribuciones gaussianas , habrá una media y una varianza para cada componente. Si los componentes de la mezcla son distribuciones categóricas (por ejemplo, cuando cada observación es una ficha de un alfabeto finito de tamaño V ), habrá un vector de probabilidades V sumando 1.

Además, en un entorno bayesiano , los pesos y parámetros de la mezcla serán variables aleatorias, y las distribuciones previas se colocarán sobre las variables. En tal caso, las ponderaciones se ven típicamente como un vector aleatorio de dimensión K extraído de una distribución de Dirichlet (el previo conjugado de la distribución categórica), y los parámetros se distribuirán de acuerdo con sus respectivos anteriores conjugados.

Matemáticamente, un modelo de mezcla paramétrico básico se puede describir de la siguiente manera:

En una configuración bayesiana, todos los parámetros están asociados con variables aleatorias, como se indica a continuación:

Esta caracterización utiliza F y H para describir distribuciones arbitrarias sobre observaciones y parámetros, respectivamente. Típicamente H será el conjugado antes de F . Las dos opciones más comunes de F son gaussiana, también conocida como " normal " (para observaciones de valor real) y categórica (para observaciones discretas). Otras posibilidades habituales para la distribución de los componentes de la mezcla son:

  • Distribución binomial , para el número de "ocurrencias positivas" (p. Ej., Éxitos, votos a favor, etc.) dado un número fijo de ocurrencias totales
  • Distribución multinomial , similar a la distribución binomial, pero para recuentos de ocurrencias de múltiples vías (p. Ej., Sí / no / tal vez en una encuesta)
  • Distribución binomial negativa , para observaciones de tipo binomial, pero donde la cantidad de interés es el número de fracasos antes de que ocurra un número determinado de éxitos.
  • Distribución de Poisson , para el número de ocurrencias de un evento en un período de tiempo dado, para un evento que se caracteriza por una tasa fija de ocurrencia
  • Distribución exponencial , para el tiempo antes de que ocurra el próximo evento, para un evento que se caracteriza por una tasa fija de ocurrencia.
  • Distribución logarítmica normal , para números reales positivos que se supone que crecen exponencialmente, como ingresos o precios.
  • Distribución normal multivariante (también conocida como distribución gaussiana multivariada ), para vectores de resultados correlacionados que se distribuyen individualmente en Gauss
  • Distribución t de Student multivariante (también conocida como distribución t multivariante ), para vectores de resultados correlacionados de cola pesada [1]
  • Un vector de valores distribuidos por Bernoulli , correspondiente, por ejemplo, a una imagen en blanco y negro, donde cada valor representa un píxel; vea el ejemplo de reconocimiento de escritura a mano a continuación

Ejemplos específicos

Modelo de mezcla gaussiana

Modelo de mezcla gaussiana no bayesiana utilizando notación de placa . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K .

Un modelo típico de mezcla gaussiana no bayesiana se ve así:

Modelo de mezcla bayesiana gaussiana mediante notación de placas . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K .

Una versión bayesiana de un modelo de mezcla gaussiana es la siguiente:

Animación del proceso de agrupamiento para datos unidimensionales utilizando un modelo de mezcla Bayesiano Gaussiano donde las distribuciones normales se extraen de un proceso de Dirichlet . Los histogramas de los grupos se muestran en diferentes colores. Durante el proceso de estimación de parámetros, se crean nuevos clústeres y crecen con los datos. La leyenda muestra los colores del grupo y el número de puntos de datos asignados a cada grupo.

Modelo de mezcla gaussiana multivariante

Un modelo de mezcla bayesiana gaussiana se suele extender para ajustarse a un vector de parámetros desconocidos (indicados en negrita) o distribuciones normales multivariadas. En una distribución multivariante (es decir, una que modela un vectorcon N variables aleatorias) se puede modelar un vector de parámetros (como varias observaciones de una señal o parches dentro de una imagen) usando un modelo de mezcla gaussiana previa distribución en el vector de estimaciones dado por

donde el i- ésimo componente del vector se caracteriza por distribuciones normales con pesos, medio y matrices de covarianza . Para incorporar esta previa en una estimación bayesiana, la previa se multiplica por la distribución conocida de los datos condicionado a los parámetros para ser estimado. Con esta formulación, la distribución posterior es también un modelo mixto gaussiano de la forma

con nuevos parámetros y que se actualizan mediante el algoritmo EM . [2] Aunque las actualizaciones de parámetros basadas en EM están bien establecidas, proporcionar las estimaciones iniciales para estos parámetros es actualmente un área de investigación activa. Tenga en cuenta que esta formulación produce una solución de forma cerrada para la distribución posterior completa. Estimaciones de la variable aleatoria puede obtenerse mediante uno de varios estimadores, como la media o el máximo de la distribución posterior.

Tales distribuciones son útiles para asumir formas de imágenes y grupos, por ejemplo. En el caso de la representación de imágenes, cada gaussiano puede inclinarse, expandirse y deformarse de acuerdo con las matrices de covarianza.. Una distribución gaussiana del conjunto se ajusta a cada parche (generalmente de tamaño 8x8 píxeles) en la imagen. En particular, cualquier distribución de puntos alrededor de un grupo (ver k -medias ) puede recibir con precisión suficientes componentes gaussianos, pero apenas se necesitan más de K = 20 componentes para modelar con precisión una distribución de imágenes o un grupo de datos dados.

Modelo de mezcla categórica

Modelo de mezcla categórica no bayesiano utilizando notación de placa . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; lo mismo ocurre con [V].

Un modelo típico de mezcla no bayesiano con observaciones categóricas se ve así:

  • como anteriormente
  • como anteriormente
  • como anteriormente
  • dimensión de observaciones categóricas, por ejemplo, tamaño del vocabulario de palabras
  • probabilidad de componente de observar el artículo
  • vector de dimensión compuesto de debe sumar 1

Las variables aleatorias:


Modelo de mezcla categórica bayesiano utilizando notación de placa . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; lo mismo ocurre con [V].

Un modelo típico de mezcla bayesiana con observaciones categóricas se ve así:

  • como anteriormente
  • como anteriormente
  • como anteriormente
  • dimensión de observaciones categóricas, por ejemplo, tamaño del vocabulario de palabras
  • probabilidad de componente de observar el artículo
  • vector de dimensión compuesto de debe sumar 1
  • hiperparámetro de concentración compartida de para cada componente
  • hiperparámetro de concentración de

Las variables aleatorias:


Un modelo financiero

La distribución normal se traza utilizando diferentes medias y varianzas.

Los rendimientos financieros a menudo se comportan de manera diferente en situaciones normales y durante tiempos de crisis. Un modelo mixto [3] para los datos de retorno parece razonable. A veces, el modelo utilizado es un modelo de difusión por salto o como una mezcla de dos distribuciones normales. Consulte Economía financiera # Desafíos y críticas para obtener más contexto.

Precios de la vivienda

Suponga que observamos los precios de N casas diferentes. Los diferentes tipos de casas en diferentes vecindarios tendrán precios muy diferentes, pero el precio de un tipo particular de casa en un vecindario particular (por ejemplo, una casa de tres dormitorios en un vecindario moderadamente exclusivo) tenderá a agruparse bastante cerca de la media. Un modelo posible de tales precios sería suponer que los precios se describen con precisión mediante un modelo mixto con K componentes diferentes, cada uno distribuido como una distribución normal con media y varianza desconocidas, con cada componente especificando una combinación particular de tipo de casa / vecindario. Ajustar este modelo a los precios observados, por ejemplo, utilizando el algoritmo de maximización de expectativas , tendería a agrupar los precios según el tipo de casa / vecindario y revelaría la distribución de precios en cada tipo / vecindario. (Tenga en cuenta que para valores como los precios o los ingresos que están garantizados como positivos y que tienden a crecer exponencialmente , una distribución logarítmica normal podría ser un modelo mejor que una distribución normal).

Temas en un documento

Suponga que un documento está compuesto por N palabras diferentes de un vocabulario total de tamaño V , donde cada palabra corresponde a uno de los K temas posibles. La distribución de tales palabras podría modelarse como una mezcla de K distribuciones categóricas V -dimensionales diferentes . Un modelo de este tipo se denomina comúnmente modelo temático . Tenga en cuenta que la maximización de expectativas aplicada a dicho modelo normalmente no producirá resultados realistas, debido (entre otras cosas) al número excesivo de parámetros . Por lo general, se necesitan algunos tipos de suposiciones adicionales para obtener buenos resultados. Por lo general, se agregan dos tipos de componentes adicionales al modelo:

  1. Se coloca una distribución previa sobre los parámetros que describen las distribuciones de temas, utilizando una distribución de Dirichlet con un parámetro de concentración que se establece significativamente por debajo de 1, para fomentar distribuciones escasas (donde solo un pequeño número de palabras tienen probabilidades significativamente distintas de cero).
  2. Se coloca algún tipo de restricción adicional sobre las identidades temáticas de las palabras, para aprovechar la agrupación natural.
  • Por ejemplo, se podría colocar una cadena de Markov en las identidades de los temas (es decir, las variables latentes que especifican el componente de mezcla de cada observación), correspondiente al hecho de que las palabras cercanas pertenecen a temas similares. (Esto da como resultado un modelo de Markov oculto , específicamente uno en el que se coloca una distribución previa sobre las transiciones de estado que favorece las transiciones que permanecen en el mismo estado).
  • Otra posibilidad es el modelo de asignación de Dirichlet latente , que divide las palabras en D documentos diferentes y asume que en cada documento solo un pequeño número de temas ocurren con alguna frecuencia.

Reconocimiento de escritura a mano

El siguiente ejemplo se basa en un ejemplo de Christopher M. Bishop , Reconocimiento de patrones y aprendizaje automático . [4]

Imagine que se nos da una imagen en blanco y negro N × N que se sabe que es un escaneo de un dígito escrito a mano entre 0 y 9, pero no sabemos qué dígito está escrito. Podemos crear un modelo de mezcla con diferentes componentes, donde cada componente es un vector de tamaño de distribuciones de Bernoulli (una por píxel). Dicho modelo se puede entrenar con el algoritmo de maximización de expectativas en un conjunto de dígitos escritos a mano sin etiquetar, y agrupará de manera efectiva las imágenes de acuerdo con el dígito que se está escribiendo. El mismo modelo podría usarse para reconocer el dígito de otra imagen simplemente manteniendo los parámetros constantes, calculando la probabilidad de la nueva imagen para cada dígito posible (un cálculo trivial) y devolviendo el dígito que generó la probabilidad más alta.

Evaluación de la precisión del proyectil (también conocido como error circular probable, CEP)

Los modelos de mezcla se aplican al problema de dirigir múltiples proyectiles hacia un objetivo (como en aplicaciones de defensa aérea, terrestre o marítima), donde las características físicas y / o estadísticas de los proyectiles difieren dentro de los múltiples proyectiles. Un ejemplo podría ser disparos de múltiples tipos de municiones o disparos desde múltiples ubicaciones dirigidos a un objetivo. La combinación de tipos de proyectiles puede caracterizarse como un modelo mixto gaussiano. [5] Además, una medida bien conocida de precisión para un grupo de proyectiles es el error circular probable (CEP), que es el número R tal que, en promedio, la mitad del grupo de proyectiles cae dentro del círculo de radio R sobre el punto de destino. El modelo de mezcla se puede utilizar para determinar (o estimar) el valor R . El modelo de mezcla captura adecuadamente los diferentes tipos de proyectiles.

Aplicaciones directas e indirectas

El ejemplo financiero anterior es una aplicación directa del modelo mixto, una situación en la que asumimos un mecanismo subyacente de modo que cada observación pertenece a una de varias fuentes o categorías diferentes. Sin embargo, este mecanismo subyacente puede ser observable o no. En esta forma de mezcla, cada una de las fuentes se describe mediante una función de densidad de probabilidad del componente, y su peso de mezcla es la probabilidad de que una observación provenga de este componente.

En una aplicación indirecta del modelo de mezcla no asumimos tal mecanismo. El modelo mixto se utiliza simplemente por sus flexibilidades matemáticas. Por ejemplo, una mezcla de dos distribuciones normales con diferentes medias puede resultar en una densidad con dos modos , que no está modelada por distribuciones paramétricas estándar. Otro ejemplo lo da la posibilidad de distribuciones mixtas para modelar colas más gruesas que las gaussianas básicas, de modo que sea un candidato para modelar eventos más extremos. Cuando se combina con la coherencia dinámica , este enfoque se ha aplicado a la valoración de derivados financieros en presencia de la sonrisa de volatilidad en el contexto de los modelos de volatilidad locales . Esto define nuestra aplicación.

Mantenimiento predictivo

El agrupamiento basado en modelos de mezcla también se utiliza principalmente para identificar el estado de la máquina en el mantenimiento predictivo . Los gráficos de densidad se utilizan para analizar la densidad de características de alta dimensión. Si se observan densidades de múltiples modelos, se supone que un conjunto finito de densidades está formado por un conjunto finito de mezclas normales. Se utiliza un modelo de mezcla gaussiana multivariante para agrupar los datos de características en un número k de grupos, donde k representa cada estado de la máquina. El estado de la máquina puede ser un estado normal, un estado apagado o un estado defectuoso. [6] Cada grupo formado puede diagnosticarse utilizando técnicas como el análisis espectral. En los últimos años, esto también se ha utilizado ampliamente en otras áreas, como la detección temprana de fallas. [7]

Segmentación de imágenes difusas

Un ejemplo de mezcla gaussiana en la segmentación de imágenes con histograma gris

En el procesamiento de imágenes y la visión por computadora, los modelos tradicionales de segmentación de imágenes a menudo asignan a un píxel solo un patrón exclusivo. En la segmentación difusa o suave, cualquier patrón puede tener cierta "propiedad" sobre cualquier píxel. Si los patrones son gaussianos, la segmentación difusa naturalmente da como resultado mezclas gaussianas. Combinados con otras herramientas analíticas o geométricas (por ejemplo, transiciones de fase sobre límites difusivos), tales modelos de mezcla espacialmente regularizados podrían conducir a métodos de segmentación más realistas y computacionalmente eficientes. [8]

Registro de conjuntos de puntos

Los modelos probabilísticos de mezcla, como los modelos de mezcla gaussiana (GMM), se utilizan para resolver problemas de registro de conjuntos de puntos en los campos de procesamiento de imágenes y visión por computadora. Para el registro de conjuntos de puntos por pares , un conjunto de puntos se considera como los centroides de los modelos de mezcla y el otro conjunto de puntos se considera como puntos de datos (observaciones). Los métodos más avanzados son, por ejemplo, la deriva de punto coherente (CPD) [9] y los modelos de mezcla de distribución t de Student (TMM). [10] El resultado de una investigación reciente demuestra la superioridad de los modelos de mezcla híbrida [11] (por ejemplo, la combinación de distribución t de Student y distribución de Watson / distribución de Bingham para modelar posiciones espaciales y orientaciones de ejes por separado) en comparación con CPD y TMM, en términos de inherente robustez, precisión y capacidad discriminativa.

La identificabilidad se refiere a la existencia de una caracterización única para cualquiera de los modelos de la clase (familia) que se está considerando. Los procedimientos de estimación pueden no estar bien definidos y la teoría asintótica puede no ser válida si un modelo no es identificable.

Ejemplo

Sea J la clase de todas las distribuciones binomiales con n = 2 . Entonces una mezcla de dos miembros de J habría

y p 2 = 1 - p 0 - p 1 . Claramente, dados p 0 y p 1 , no es posible determinar el modelo de mezcla anterior de manera única, ya que hay tres parámetros ( π , θ 1 , θ 2 ) por determinar.

Definición

Considere una mezcla de distribuciones paramétricas de la misma clase. Dejar

ser la clase de todas las distribuciones de componentes. Entonces, el casco convexo K de J define la clase de toda mezcla finita de distribuciones en J :

Se dice que K es identificable si todos sus miembros son únicos, es decir, dados dos miembros p y p ′ en K , que son mezclas de k distribuciones y k ′ distribuciones respectivamente en J , tenemos p = p ′ si y solo si, en primer lugar, k = k ′ y, en segundo lugar, podemos reordenar las sumas de modo que a i = a i y ƒ i = ƒ i para todo i .

Modelos de mezcla paramétricos se utilizan a menudo cuando sabemos la distribución Y y podemos probar de X , pero nos gustaría para determinar la una i y theta i valores. Tales situaciones pueden surgir en estudios en los que tomamos muestras de una población que se compone de varias subpoblaciones distintas.

Es común pensar en el modelado de mezclas de probabilidad como un problema de datos faltantes. Una forma de entender esto es asumir que los puntos de datos en consideración tienen "membresía" en una de las distribuciones que estamos usando para modelar los datos. Cuando comenzamos, esta membresía es desconocida o falta. El trabajo de la estimación es diseñar los parámetros apropiados para las funciones del modelo que elegimos, con la conexión a los puntos de datos representados como su pertenencia a las distribuciones individuales del modelo.

Se han propuesto una variedad de enfoques al problema de la descomposición de mezclas, muchos de los cuales se centran en métodos de máxima verosimilitud, como la maximización de expectativas (EM) o la estimación máxima a posteriori (MAP). Generalmente, estos métodos consideran por separado las cuestiones de identificación del sistema y estimación de parámetros; los métodos para determinar el número y la forma funcional de los componentes dentro de una mezcla se distinguen de los métodos para estimar los valores de los parámetros correspondientes. Algunas desviaciones notables son los métodos gráficos descritos en Tarter y Lock [12] y, más recientemente, técnicas de longitud mínima del mensaje (MML) como Figueiredo y Jain [13] y, hasta cierto punto, las rutinas de análisis de patrones de coincidencia de momentos sugeridas por McWilliam y Loh ( 2009). [14]

Maximización de expectativas (EM)

La maximización de expectativas (EM) es aparentemente la técnica más popular utilizada para determinar los parámetros de una mezcla con un número determinado de componentes a priori . Esta es una forma particular de implementar la estimación de máxima verosimilitud para este problema. EM es de particular atractivo para mezclas normales finitas donde las expresiones de forma cerrada son posibles, como en el siguiente algoritmo iterativo de Dempster et al. (1977) [15]

con las probabilidades posteriores

Así, sobre la base de la estimación actual de los parámetros, la probabilidad condicional para una observación dada x ( t ) generada a partir del estado s se determina para cada t = 1,…, N  ; Siendo N el tamaño de la muestra. Luego, los parámetros se actualizan de manera que los nuevos pesos de los componentes correspondan a la probabilidad condicional promedio y la media y covarianza de cada componente sea el promedio ponderado específico del componente de la media y la covarianza de toda la muestra.

Dempster [15] también mostró que cada iteración sucesiva de EM no disminuirá la probabilidad, una propiedad que no comparten otras técnicas de maximización basadas en gradientes. Además, EM incorpora naturalmente restricciones en el vector de probabilidad y, para tamaños de muestra suficientemente grandes, se repite la definición positiva de la covarianza. Esta es una ventaja clave, ya que los métodos explícitamente restringidos incurren en costos computacionales adicionales para verificar y mantener los valores apropiados. En teoría, EM es un algoritmo de primer orden y, como tal, converge lentamente hacia una solución de punto fijo. Redner y Walker (1984) [ se necesita cita completa ] argumentan a favor de los métodos de Newton y cuasi-Newton superlineales y de segundo orden y reportan una convergencia lenta en EM sobre la base de sus pruebas empíricas. Admiten que la convergencia en la probabilidad fue rápida incluso si la convergencia en los valores de los parámetros en sí no lo fue. Los méritos relativos de EM y otros algoritmos con respecto a la convergencia se han discutido en otra literatura. [dieciséis]

Otras objeciones comunes al uso de EM son que tiene una propensión a identificar de manera falsa los máximos locales, así como a mostrar sensibilidad a los valores iniciales. [17] [18] Uno puede abordar estos problemas evaluando EM en varios puntos iniciales en el espacio de parámetros, pero esto es computacionalmente costoso y otros enfoques, como el método de recocido EM de Udea y Nakano (1998) (en el que los componentes iniciales se ven obligados esencialmente a superponerse, proporcionando una base menos heterogénea para las conjeturas iniciales), puede ser preferible.

Figueiredo y Jain [13] señalan que la convergencia a valores de parámetros "sin sentido" obtenidos en el límite (donde se rompen las condiciones de regularidad, por ejemplo, Ghosh y Sen (1985)) se observa con frecuencia cuando el número de componentes del modelo excede el óptimo / verdadero. Sobre esta base, sugieren un enfoque unificado para la estimación y la identificación en el que se elige la n inicial para superar en gran medida el valor óptimo esperado. Su rutina de optimización se construye a través de un criterio de longitud mínima de mensaje (MML) que elimina efectivamente un componente candidato si no hay información suficiente para respaldarlo. De esta forma es posible sistematizar reducciones en ny considerar estimación e identificación de manera conjunta.

El algoritmo de maximización de expectativas se puede utilizar para calcular los parámetros de una distribución de modelo de mezcla paramétrica (el a i y θ i ). Es un algoritmo iterativo con dos pasos: un paso de expectativa y un paso de maximización . En las demostraciones de SOCR se incluyen ejemplos prácticos de EM y modelado de mezclas .

El paso de la expectativa

Con las estimaciones iniciales de los parámetros de nuestro modelo de mezcla, la "pertenencia parcial" de cada punto de datos en cada distribución constituyente se calcula calculando los valores esperados para las variables de pertenencia de cada punto de datos. Es decir, para cada punto de datos x j y distribución Y i , el valor de pertenencia y i , j es:

El paso de maximización

Con los valores esperados disponibles para la pertenencia a grupos, las estimaciones de los complementos se vuelven a calcular para los parámetros de distribución.

Los coeficientes de mezcla a i son las medias de los valores de pertenencia sobre los N puntos de datos.

Los parámetros del modelo de componentes θ i también se calculan mediante la maximización de expectativas utilizando puntos de datos x j que se han ponderado utilizando los valores de pertenencia. Por ejemplo, si θ es una media μ

Con las nuevas estimaciones para un i y el θ i ' s, el paso de la expectativa se repite para volver a calcular los nuevos valores de pertenencia. Todo el procedimiento se repite hasta que los parámetros del modelo convergen.

Cadena de Markov Monte Carlo

Como alternativa al algoritmo EM, los parámetros del modelo de mezcla se pueden deducir utilizando un muestreo posterior como lo indica el teorema de Bayes . Esto todavía se considera un problema de datos incompletos en el que la pertenencia a puntos de datos son los datos faltantes. Se puede utilizar un procedimiento iterativo de dos pasos conocido como muestreo de Gibbs .

El ejemplo anterior de una mezcla de dos distribuciones gaussianas puede demostrar cómo funciona el método. Como antes, se realizan estimaciones iniciales de los parámetros para el modelo de mezcla. En lugar de calcular membresías parciales para cada distribución elemental, se extrae un valor de membresía para cada punto de datos de una distribución de Bernoulli (es decir, se asignará al primero o al segundo gaussiano). El parámetro de Bernoulli θ se determina para cada punto de datos sobre la base de una de las distribuciones constituyentes. [ vago ] Los extractos de la distribución generan asociaciones de miembros para cada punto de datos. Los estimadores enchufables se pueden usar como en el paso M de EM para generar un nuevo conjunto de parámetros del modelo de mezcla, y se repite el paso de extracción binomial.

Coincidencia de momento

El método de emparejamiento de momentos es una de las técnicas más antiguas para determinar los parámetros de la mezcla que se remonta al trabajo seminal de Karl Pearson de 1894. En este enfoque, los parámetros de la mezcla se determinan de manera que la distribución compuesta tenga momentos que coincidan con algún valor dado. En muchos casos, la extracción de soluciones a las ecuaciones de momento puede presentar problemas algebraicos o computacionales no triviales. Además, el análisis numérico de Day [19] ha indicado que tales métodos pueden ser ineficaces en comparación con EM. No obstante, ha habido un interés renovado en este método, por ejemplo, Craigmile y Titterington (1998) y Wang. [20]

McWilliam y Loh (2009) consideran la caracterización de una cópula de mezcla normal hiper-cuboide en sistemas dimensionales grandes para los cuales EM sería computacionalmente prohibitivo. Aquí se usa una rutina de análisis de patrones para generar dependencias de cola multivariadas consistentes con un conjunto de momentos univariados y (en cierto sentido) bivariados. A continuación, se evalúa el rendimiento de este método utilizando datos logarítmicos de rentabilidad de la equidad con las estadísticas de la prueba de Kolmogorov-Smirnov que sugieren un buen ajuste descriptivo.

Método espectral

Algunos problemas en la estimación de modelos de mezcla se pueden resolver utilizando métodos espectrales . En particular, resulta útil si los puntos de datos x i son puntos en el espacio real de alta dimensión , y se sabe que las distribuciones ocultas son log-cóncavas (como la distribución gaussiana o la distribución exponencial ).

Los métodos espectrales de aprendizaje de modelos de mezcla se basan en el uso de la descomposición de valores singulares de una matriz que contiene puntos de datos. La idea es considerar los primeros k vectores singulares, donde k es el número de distribuciones que se deben aprender. La proyección de cada punto de datos a un subespacio lineal atravesado por esos vectores agrupa los puntos que se originan en la misma distribución muy juntos, mientras que los puntos de diferentes distribuciones permanecen muy separados.

Una característica distintiva del método espectral es que nos permite probar que si las distribuciones satisfacen ciertas condiciones de separación (por ejemplo, no demasiado cercanas), entonces la mezcla estimada será muy cercana a la verdadera con alta probabilidad.

Métodos gráficos

Tarter y Lock [12] describen un enfoque gráfico para la identificación de mezclas en el que se aplica una función del núcleo a una gráfica de frecuencia empírica para reducir la varianza intracomponente. De esta manera, se pueden identificar más fácilmente los componentes que tienen diferentes medios. Si bien este método λ no requiere un conocimiento previo del número o la forma funcional de los componentes, su éxito depende de la elección de los parámetros del kernel que, en cierta medida, incorporan implícitamente suposiciones sobre la estructura del componente.

Otros metodos

Es probable que algunos de ellos incluso puedan aprender mezclas de distribuciones de colas pesadas, incluidas aquellas con varianza infinita (consulte los enlaces a los artículos a continuación). En este contexto, los métodos basados ​​en EM no funcionarían, ya que el paso Expectativa divergiría debido a la presencia de valores atípicos .

Una simulación

Para simular una muestra de tamaño N que proviene de una mezcla de distribuciones F i , i = 1 an , con probabilidades p i (suma =  p i  = 1):

  1. Genere N números aleatorios a partir de una distribución categórica de tamaño n y probabilidades p i para i = 1 =  an . Estos le dicen de cuál de los F i procederá cada uno de los valores de N. Denote con m i la cantidad de números aleatorios asignados a la i- ésima categoría.
  2. Para cada i , genere m i números aleatorios a partir de la distribución F i .

En un entorno bayesiano , se pueden agregar niveles adicionales al modelo gráfico que define el modelo de mezcla. Por ejemplo, en el modelo de tema de asignación de Dirichlet latente común , las observaciones son conjuntos de palabras extraídas de D documentos diferentes y los componentes de la mezcla K representan temas que se comparten entre documentos. Cada documento tiene un conjunto diferente de pesos de mezcla, que especifican los temas predominantes en ese documento. Todos los conjuntos de pesos de mezcla comparten hiperparámetros comunes .

Una extensión muy común es conectar las variables latentes que definen las identidades de los componentes de la mezcla en una cadena de Markov , en lugar de asumir que son variables aleatorias independientes distribuidas de manera idéntica . El modelo resultante se denomina modelo de Markov oculto y es uno de los modelos jerárquicos secuenciales más comunes. Se han desarrollado numerosas extensiones de modelos ocultos de Markov; consulte el artículo resultante para obtener más información.

Las distribuciones de la mezcla y el problema de la descomposición de la mezcla, es decir, la identificación de sus componentes constituyentes y sus parámetros, se han citado en la literatura desde 1846 (Quetelet en McLachlan, [17] 2000), aunque se hace referencia común a la trabajo de Karl Pearson (1894) [21] como el primer autor en abordar explícitamente el problema de la descomposición en la caracterización de atributos no normales de la frente a las proporciones de longitud corporal en poblaciones de cangrejos costeros hembras. La motivación para este trabajo fue proporcionada por el zoólogo Walter Frank Raphael Weldon, quien había especulado en 1893 (en Tarter y Lock [12] ) que la asimetría en el histograma de estas proporciones podría indicar una divergencia evolutiva. El enfoque de Pearson fue ajustar una mezcla univariante de dos normales a los datos eligiendo los cinco parámetros de la mezcla de manera que los momentos empíricos coincidieran con los del modelo.

Si bien su trabajo tuvo éxito en la identificación de dos subpoblaciones potencialmente distintas y en la demostración de la flexibilidad de las mezclas como una herramienta de emparejamiento de momentos, la formulación requirió la solución de un polinomio de noveno grado (nonic) que en ese momento planteaba un importante desafío computacional.

Los trabajos posteriores se centraron en abordar estos problemas, pero no fue hasta el advenimiento de la computadora moderna y la popularización de las técnicas de parametrización de máxima verosimilitud (MLE) que la investigación realmente despegó. [22] Desde entonces ha habido un vasto cuerpo de investigación sobre el tema que abarca áreas como investigación pesquera , agricultura , botánica , economía , medicina , genética , psicología , paleontología , electroforesis , finanzas , geología y zoología . [23]

Mezcla

  • Densidad de la mezcla
  • Mezcla (probabilidad)
  • Modelo de mezcla flexible (FMM)

Modelos jerárquicos

  • Modelo grafico
  • Modelo jerárquico de Bayes

Detección de valores atípicos

  • RANSAC

  1. ^ Sotirios P. Chatzis, Dimitrios I. Kosmopoulos, Theodora A. Varvarigou, "Modelado y clasificación de señales utilizando un modelo de espacio latente robusto basado en distribuciones t", Transacciones IEEE sobre procesamiento de señales, vol. 56, no. 3, págs. 949–963, marzo de 2008. [1]
  2. ^ Yu, Guoshen (2012). "Resolución de problemas inversos con estimadores lineales por partes: de modelos de mezcla gaussiana a la dispersión estructurada". Transacciones IEEE sobre procesamiento de imágenes . 21 (5): 2481–2499. arXiv : 1006.3056 . Código bibliográfico : 2012ITIP ... 21.2481G . doi : 10.1109 / tip.2011.2176743 . PMID 22180506 . S2CID 479845 .   
  3. ^ Dinov, ID. " Tutorial de maximización de expectativas y modelado de mezclas ". Biblioteca digital de California , recurso computacional en línea de estadísticas, documento EM_MM, http://repositories.cdlib.org/socr/EM_MM , 9 de diciembre de 2008
  4. ^ Obispo, Christopher (2006). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN 978-0-387-31073-2.
  5. ^ Spall, JC y Maryak, JL (1992). "Un estimador bayesiano factible de cuantiles para precisión de proyectiles a partir de datos no iid". Revista de la Asociación Estadounidense de Estadística , vol. 87 (419), págs. 676–681. JSTOR  2290205
  6. ^ Amruthnath, Nagdev; Gupta, Tarun (2 de febrero de 2018). Predicción de clases de fallas en el aprendizaje no supervisado mediante el enfoque de agrupamiento basado en modelos . Inédito. doi : 10.13140 / rg.2.2.22085.14563 .
  7. ^ Amruthnath, Nagdev; Gupta, Tarun (1 de febrero de 2018). Un estudio de investigación sobre algoritmos de aprendizaje automático no supervisados ​​para la detección de fallas en el mantenimiento predictivo . Inédito. doi : 10.13140 / rg.2.2.28822.24648 .
  8. ^ Shen, Jianhong (Jackie) (2006). "Un modelo estocástico-variacional para la segmentación suave de Mumford-Shah" . Revista Internacional de Imágenes Biomédicas . 2006 : 2–16. Código bibliográfico : 2006IJBI.200649515H . doi : 10.1155 / IJBI / 2006/92329 . PMC  2324060 . PMID  23165059 .
  9. ^ Myronenko, Andriy; Canción, Xubo (2010). "Registro de conjunto de puntos: deriva de punto coherente". IEEE Trans. Patrón Anal. Mach. Intell . 32 (12): 2262–2275. arXiv : 0905.2635 . doi : 10.1109 / TPAMI.2010.46 . PMID  20975122 . S2CID  10809031 .
  10. ^ Ravikumar, Nishant; Gooya, Ali; Cimen, Serkan; Frangi, Alexjandro; Taylor, Zeike (2018). "Registro de similitud grupal de conjuntos de puntos utilizando el modelo de mezcla t de Student para modelos de forma estadística" . Medicina. Imagen. Anal . 44 : 156-176. doi : 10.1016 / j.media.2017.11.012 . PMID  29248842 .
  11. ^ Bayer, Siming; Ravikumar, Nishant; Strumia, Maddalena; Tong, Xiaoguang; Gao, Ying; Ostermeier, Martin; Fahrig, Rebecca; Maier, Andreas (2018). "Compensación de desplazamiento cerebral intraoperatorio utilizando un modelo de mezcla híbrida" . Computación de Imagen Médica e Intervención Asistida por Computadora - MICCAI 2018 . Granada, España: Springer, Cham. págs. 116-124. doi : 10.1007 / 978-3-030-00937-3_14 .
  12. ^ a b c Tarter, Michael E. (1993), Modelo de estimación de curvas libres , Chapman y Hall
  13. ^ a b Figueiredo, MAT; Jain, AK (marzo de 2002). "Aprendizaje no supervisado de modelos de mezcla finita". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 24 (3): 381–396. CiteSeerX  10.1.1.362.9811 . doi : 10.1109 / 34.990138 .
  14. ^ McWilliam, N .; Loh, K. (2008), Incorporación de dependencias de cola multidimensionales en la valoración de derivados crediticios (documento de trabajo) [2]
  15. ^ a b Dempster, AP; Laird, NM; Rubin, DB (1977). "Máxima probabilidad de datos incompletos a través del algoritmo EM". Revista de la Sociedad Real de Estadística, Serie B . 39 (1): 1–38. CiteSeerX  10.1.1.163.7580 . JSTOR  2984875 .
  16. ^ Xu, L .; Jordan, MI (enero de 1996). "Sobre las propiedades de convergencia del algoritmo EM para mezclas gaussianas". Computación neuronal . 8 (1): 129-151. doi : 10.1162 / neco.1996.8.1.129 . hdl : 10338.dmlcz / 135225 . S2CID  207714252 .
  17. ^ a b McLachlan, GJ (2000), Modelos de mezcla finita , Wiley
  18. ^ Botev, ZI; Kroese, DP (2004). Optimización de la probabilidad global mediante el método de entropía cruzada con una aplicación a modelos de mezcla . Actas de la Conferencia de simulación de invierno de 2004 . 1 . pag. 517. CiteSeerX  10.1.1.331.2319 . doi : 10.1109 / WSC.2004.1371358 . ISBN 978-0-7803-8786-7. S2CID  6880171 .
  19. ^ Day, NE (1969). "Estimación de los componentes de una mezcla de distribuciones normales". Biometrika . 56 (3): 463–474. doi : 10.2307 / 2334652 . JSTOR  2334652 .
  20. ^ Wang, J. (2001), "Generación de cambios diarios en variables de mercado usando una mezcla multivariante de distribuciones normales", Actas de la 33ª Conferencia de Invierno sobre Simulación : 283-289
  21. ^ Améndola, Carlos; et al. (2015). "Variedades de momentos de mezclas gaussianas". Revista de estadística algebraica . 7 . arXiv : 1510.04654 . Código bibliográfico : 2015arXiv151004654A . doi : 10.18409 / jas.v7i1.42 . S2CID  88515304 .
  22. ^ McLachlan, GJ; Basford, KE (1988), "Modelos de mezcla: inferencia y aplicaciones a la agrupación", Estadísticas: Libros de texto y monografías , Bibcode : 1988mmia.book ..... M
  23. ^ Titterington, Smith y Makov 1985

Libros sobre modelos de mezcla

  • Everitt, BS; Mano, DJ (1981). Distribuciones de mezclas finitas . Chapman y Hall. ISBN 978-0-412-22420-1.
  • Lindsay, BG (1995). Modelos de mezcla: teoría, geometría y aplicaciones . Serie de conferencias regionales NSF-CBMS sobre probabilidad y estadística. 5 . Hayward: Instituto de Estadística Matemática.
  • Marin, JM; Mengersen, K .; Robert, CP (2011). "Modelado e inferencia bayesiana sobre mezclas de distribuciones" (PDF) . En Dey, D .; Rao, CR (eds.). Modelos bayesianos esenciales . Manual de estadística: pensamiento bayesiano: modelado y cálculo. 25 . Elsevier. ISBN 9780444537324.
  • McLachlan, GJ; Peel, D. (2000). Modelos de mezcla finita . Wiley. ISBN 978-0-471-00626-8.
  • Presione, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 16.1. Modelos de mezcla gaussiana y agrupación de k-medias" . Recetas numéricas: el arte de la informática científica (3ª ed.). Nueva York: Cambridge University Press. ISBN 978-0-521-88068-8.
  • Titterington, D .; Smith, A .; Makov, U. (1985). Análisis estadístico de distribuciones de mezclas finitas . Wiley. ISBN 978-0-471-90763-3.

Aplicación de modelos de mezcla gaussiana

  1. Reynolds, DA; Rose, RC (enero de 1995). "Identificación robusta de locutor independiente del texto usando modelos de locutor de mezcla gaussiana". Transacciones IEEE sobre procesamiento de voz y audio . 3 (1): 72–83. doi : 10.1109 / 89.365379 .
  2. Permuter, H .; Francos, J .; Jermyn, IH (2003). Modelos de mezcla gaussianos de textura y color para la recuperación de bases de datos de imágenes . Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales , 2003. Actas (ICASSP '03). doi : 10.1109 / ICASSP.2003.1199538 .
    • Permuter, Haim; Francos, Joseph; Jermyn, Ian (2006). "Un estudio de modelos de mezcla gaussianos de características de color y textura para la clasificación y segmentación de imágenes" (PDF) . Reconocimiento de patrones . 39 (4): 695–706. doi : 10.1016 / j.patcog.2005.10.028 .
  3. Lemke, Wolfgang (2005). Modelado y estimación de la estructura temporal en un marco de espacio de estados . Springer Verlag. ISBN 978-3-540-28342-3.
  4. Brigo, Damiano ; Mercurio, Fabio (2001). Difusiones de mezcla y desplazadas para modelos de sonrisa tratables analíticamente . Finanzas Matemáticas - Congreso de Licenciatura 2000. Actas. Springer Verlag.
  5. Brigo, Damiano; Mercurio, Fabio (junio de 2002). "Sonrisas de dinámica de mezcla lognormal y calibración a la volatilidad del mercado". Revista Internacional de Finanzas Teóricas y Aplicadas . 5 (4): 427. CiteSeerX  10.1.1.210.4165 . doi : 10.1142 / S0219024902001511 .
  6. Spall, JC; Maryak, JL (1992). "Un estimador bayesiano factible de cuantiles para precisión de proyectiles a partir de datos no iid". Revista de la Asociación Estadounidense de Estadística . 87 (419): 676–681. doi : 10.1080 / 01621459.1992.10475269 . JSTOR  2290205 .
  7. Alexander, Carol (diciembre de 2004). "Difusión de mezcla normal con volatilidad incierta: modelado de efectos de sonrisa a corto y largo plazo" (PDF) . Revista de banca y finanzas . 28 (12): 2957–80. doi : 10.1016 / j.jbankfin.2003.10.017 .
  8. Stylianou, Yannis; Pantazis, Yannis; Calderero, Felipe; Larroy, Pedro; Severin, Francois; Schimke, Sascha; Bonal, Rolando; Matta, Federico; Valsamakis, Athanasios (2005). Verificación biométrica multimodal basada en GMM (PDF) .
  9. Chen, J .; Adebomi, 0.E .; Olusayo, OS; Kulesza, W. (2010). La evaluación del enfoque de densidad de hipótesis de probabilidad de mezcla gaussiana para el seguimiento de múltiples objetivos . Conferencia internacional IEEE sobre sistemas y técnicas de imágenes , 2010. doi : 10.1109 / IST.2010.5548541 .

  • Nielsen, Frank (23 de marzo de 2012). "K-MLE: un algoritmo rápido para el aprendizaje de modelos de mezcla estadística".k -MLE: Un algoritmo rápido para aprender modelos de mezcla estadística . 2012 IEEE International Conference on Acustics, Speech and Signal Processing (ICASSP) . págs. 869–872. arXiv : 1203.5181 . Código bibliográfico : 2012arXiv1203.5181N . doi : 10.1109 / ICASSP.2012.6288022 . ISBN 978-1-4673-0046-9. S2CID  935615 .
  • Las demostraciones de SOCR de EM y modelado de mezclas
  • Página de modelado de mezcla (y el programa Snob para longitud mínima de mensaje ( MML ) aplicado a modelos de mezcla finita), mantenido por DL ​​Dowe.
  • PyMix : paquete de mezcla de Python, algoritmos y estructuras de datos para una amplia variedad de aplicaciones de minería de datos basadas en modelos de mezcla en Python
  • sklearn.mixture : un paquete de Python para aprender modelos de mezcla gaussianos (y muestrearlos), previamente empaquetado con SciPy y ahora empaquetado como un SciKit
  • GMM.m Código Matlab para la implementación de GMM
  • Implementación de GPUmix C ++ de modelos de mezcla bayesiana usando EM y MCMC con aceleración de velocidad 100x usando GPGPU.
  • [3] Código de Matlab para la implementación de GMM mediante el algoritmo de EM
  • [4] jMEF: Una biblioteca de código abierto de Java para aprender y procesar mezclas de familias exponenciales (usando dualidad con divergencias de Bregman). Incluye una envoltura de Matlab.
  • Implementación en C muy rápida y limpia del algoritmo de maximización de expectativas (EM) para estimar modelos de mezcla gaussianos (GMM).
  • mclust es un paquete R para modelado de mezclas.
  • dpgmm Implementación del modelo de mezcla gaussiana del proceso Pure Python Dirichlet (variacional).
  • Modelos de mezcla gaussianos Publicación del blog sobre modelos de mezcla gaussianos entrenados mediante la maximización de expectativas, con una implementación en Python.