En estadística , un modelo mixto es un modelo probabilístico para representar la presencia de subpoblaciones dentro de una población general, sin requerir que un conjunto de datos observados identifique la subpoblación a la que pertenece una observación individual. Formalmente, un modelo mixto corresponde a la distribución mixta que representa la distribución de probabilidad de las observaciones en la población total. Sin embargo, mientras que los problemas asociados con las "distribuciones mixtas" se relacionan con la derivación de las propiedades de la población general a partir de las de las subpoblaciones, los "modelos mixtos" se utilizan para hacer inferencias estadísticas. sobre las propiedades de las subpoblaciones dadas solo observaciones sobre la población agrupada, sin información de identidad de la subpoblación.
Los modelos de mezcla no deben confundirse con modelos para datos de composición , es decir, datos cuyos componentes están obligados a sumar un valor constante (1, 100%, etc.). Sin embargo, los modelos composicionales se pueden considerar como modelos mixtos, donde los miembros de la población se muestrean al azar. Por el contrario, los modelos mixtos se pueden considerar como modelos de composición, donde la población de lectura de tamaño total se ha normalizado a 1.
Un modelo típico de mezcla de dimensión finita es un modelo jerárquico que consta de los siguientes componentes:
Además, en un entorno bayesiano , los pesos y parámetros de la mezcla serán en sí mismos variables aleatorias, y se colocarán distribuciones previas sobre las variables. En tal caso, los pesos normalmente se ven como un vector aleatorio de dimensión K extraído de una distribución de Dirichlet (el conjugado previo de la distribución categórica), y los parámetros se distribuirán de acuerdo con sus respectivos conjugados previos.
Esta caracterización usa F y H para describir distribuciones arbitrarias sobre observaciones y parámetros, respectivamente. Típicamente , H será el conjugado anterior de F. Las dos opciones más comunes de F son gaussianas , también conocidas como " normales " (para observaciones de valor real) y categóricas (para observaciones discretas). Otras posibilidades comunes para la distribución de los componentes de la mezcla son:
Un modelo de mezcla bayesiano gaussiano se suele ampliar para ajustarse a un vector de parámetros desconocidos (indicados en negrita) o distribuciones normales multivariadas. En una distribución multivariada (es decir, una que modela un vector con N variables aleatorias), se puede modelar un vector de parámetros (como varias observaciones de una señal o parches dentro de una imagen) utilizando una distribución previa del modelo de mezcla gaussiana en el vector de estimaciones dado por