En estadística y aprendizaje automático , los métodos de conjunto utilizan múltiples algoritmos de aprendizaje para obtener un mejor rendimiento predictivo que el que podría obtenerse de cualquiera de los algoritmos de aprendizaje constituyentes por sí solo. [1] [2] [3] A diferencia de un conjunto estadístico en mecánica estadística, que suele ser infinito, un conjunto de aprendizaje automático consta solo de un conjunto finito concreto de modelos alternativos, pero normalmente permite que exista una estructura mucho más flexible entre esas alternativas .
Descripción general
Los algoritmos de aprendizaje supervisado realizan la tarea de buscar a través de un espacio de hipótesis para encontrar una hipótesis adecuada que haga buenas predicciones con un problema en particular. [4] Incluso si el espacio de hipótesis contiene hipótesis que son muy adecuadas para un problema en particular, puede ser muy difícil encontrar una buena. Los conjuntos combinan múltiples hipótesis para formar una (con suerte) mejor hipótesis. El término conjunto generalmente se reserva para métodos que generan múltiples hipótesis utilizando el mismo alumno base. [ según quién? ] El término más amplio de sistemas de clasificadores múltiples también cubre la hibridación de hipótesis que no son inducidas por el mismo alumno base. [ cita requerida ]
La evaluación de la predicción de un conjunto generalmente requiere más cálculos que la evaluación de la predicción de un solo modelo. En cierto sentido, el aprendizaje por conjuntos puede considerarse una forma de compensar los algoritmos de aprendizaje deficientes mediante la realización de muchos cálculos adicionales. Por otro lado, la alternativa es aprender mucho más en un sistema que no sea de conjunto. Un sistema de conjunto puede ser más eficiente para mejorar la precisión general para el mismo aumento en los recursos de cómputo, almacenamiento o comunicación usando ese aumento en dos o más métodos, de lo que se habría mejorado al aumentar el uso de recursos para un solo método. Los algoritmos rápidos, como los árboles de decisión, se utilizan comúnmente en métodos de conjunto (por ejemplo, bosques aleatorios ), aunque los algoritmos más lentos también pueden beneficiarse de las técnicas de conjunto.
Por analogía, las técnicas de conjunto también se han utilizado en escenarios de aprendizaje no supervisados , por ejemplo, en agrupaciones consensuadas o en detección de anomalías .
Teoría de conjuntos
Empíricamente, los conjuntos tienden a producir mejores resultados cuando existe una diversidad significativa entre los modelos. [5] [6] Muchos métodos conjuntos, por lo tanto, buscan promover la diversidad entre los modelos que combinan. [7] [8] Aunque quizás no sean intuitivos, se pueden usar algoritmos más aleatorios (como árboles de decisión aleatorios) para producir un conjunto más fuerte que los algoritmos muy deliberados (como árboles de decisión de reducción de entropía). [9] Sin embargo, se ha demostrado que el uso de una variedad de algoritmos de aprendizaje sólidos es más efectivo que el uso de técnicas que intentan simplificar los modelos para promover la diversidad. [10]
Tamaño del conjunto
Si bien el número de clasificadores de componentes de un conjunto tiene un gran impacto en la precisión de la predicción, hay un número limitado de estudios que abordan este problema. La determinación a priori del tamaño del conjunto y el volumen y la velocidad de los flujos de big data hacen que esto sea aún más crucial para los clasificadores de conjuntos en línea. La mayoría de las pruebas estadísticas se utilizaron para determinar el número adecuado de componentes. Más recientemente, un marco teórico sugirió que existe un número ideal de clasificadores de componentes para un conjunto tal que tener más o menos que este número de clasificadores deterioraría la precisión. Se llama "la ley de los rendimientos decrecientes en la construcción de conjuntos". Su marco teórico muestra que el uso de la misma cantidad de clasificadores de componentes independientes como etiquetas de clase proporciona la mayor precisión. [11] [12]
Tipos comunes de conjuntos
Clasificador óptimo de Bayes
El clasificador óptimo de Bayes es una técnica de clasificación. Es un conjunto de todas las hipótesis en el espacio de hipótesis. En promedio, ningún otro conjunto puede superarlo. [13] El clasificador óptimo ingenuo de Bayes es una versión de esto que asume que los datos son condicionalmente independientes de la clase y hace que el cálculo sea más factible. Cada hipótesis recibe un voto proporcional a la probabilidad de que el conjunto de datos de entrenamiento se muestreara de un sistema si esa hipótesis fuera cierta. Para facilitar el entrenamiento de datos de tamaño finito, el voto de cada hipótesis también se multiplica por la probabilidad previa de esa hipótesis. El clasificador óptimo de Bayes se puede expresar con la siguiente ecuación:
dónde es la clase predicha, es el conjunto de todas las clases posibles, es el espacio de hipótesis, se refiere a una probabilidad , yson los datos de entrenamiento. Como conjunto, el clasificador óptimo de Bayes representa una hipótesis que no está necesariamente en. La hipótesis representada por el clasificador óptimo de Bayes, sin embargo, es la hipótesis óptima en el espacio de conjuntos (el espacio de todos los conjuntos posibles que consta sólo de hipótesis en).
Esta fórmula se puede reformular usando el teorema de Bayes , que dice que el posterior es proporcional a la probabilidad multiplicada por el anterior:
por eso,
Bootstrap aggregating (ensacado)
La agregación de bootstrap, a menudo abreviada como ensacado , implica que cada modelo en el conjunto vote con el mismo peso. Para promover la variación del modelo, el ensacado entrena cada modelo en el conjunto utilizando un subconjunto del conjunto de entrenamiento extraído al azar. Como ejemplo, el algoritmo de bosque aleatorio combina árboles de decisión aleatorios con ensacado para lograr una precisión de clasificación muy alta. [14]
En el embolsado, las muestras se generan de tal manera que las muestras son diferentes entre sí, sin embargo, se permite el reemplazo. Reemplazo significa que una instancia puede ocurrir en múltiples muestras varias veces o no puede aparecer en algunas muestras. Luego, estas muestras se entregan a varios alumnos y luego los resultados de cada alumno se combinan en forma de votación.
Impulsar
El impulso implica la construcción incremental de un conjunto mediante el entrenamiento de cada nueva instancia de modelo para enfatizar las instancias de entrenamiento que los modelos anteriores clasificaron erróneamente. En algunos casos, se ha demostrado que el impulso produce una mayor precisión que el ensacado, pero también tiende a ser más probable que se ajuste en exceso a los datos de entrenamiento. Con mucho, la implementación más común de impulso es Adaboost , aunque se informa que algunos algoritmos más nuevos logran mejores resultados. [ cita requerida ]
En Boosting, se le da un peso igual (distribución de probabilidad uniforme) a los datos de entrenamiento de muestra (digamos D1) en la ronda inicial. Luego, estos datos (D1) se entregan a un alumno básico (por ejemplo, L1). A las instancias mal clasificadas por L1 se les asigna un peso más alto que las instancias correctamente clasificadas, pero teniendo en cuenta que la distribución de probabilidad total será igual a 1. Estos datos reforzados (digamos D2) se le dan luego al segundo alumno de base (digamos L2 ) y así. Luego, los resultados se combinan en forma de votación.
Promedio del modelo bayesiano
El promedio del modelo bayesiano (BMA) hace predicciones usando un promedio sobre varios modelos con pesos dados por la probabilidad posterior de cada modelo dados los datos. [15] Se sabe que BMA generalmente da mejores respuestas que un solo modelo, obtenido, por ejemplo, mediante regresión escalonada , especialmente cuando modelos muy diferentes tienen un rendimiento casi idéntico en el conjunto de entrenamiento, pero por lo demás pueden funcionar de manera bastante diferente.
La pregunta más obvia con cualquier técnica que use el teorema de Bayes es la previa, es decir, una especificación de la probabilidad (subjetiva, quizás) de que cada modelo sea el mejor para usar para un propósito dado. Conceptualmente, BMA se puede utilizar con cualquier anterior. Los paquetes ensembleBMA [16] y BMA [17] para R usan el a priori implícito en el criterio de información bayesiano , (BIC), siguiendo a Raftery (1995). [18] El paquete BAS para R admite el uso de las prioridades implícitas en el criterio de información de Akaike (AIC) y otros criterios sobre los modelos alternativos, así como las prioridades sobre los coeficientes. [19]
La diferencia entre BIC y AIC es la fuerza de preferencia por la parsimonia. La penalización por la complejidad del modelo es para el BIC y para la AIC. La teoría asintótica de muestras grandes ha establecido que si hay un mejor modelo, entonces con tamaños de muestra crecientes, BIC es muy consistente, es decir, es casi seguro que lo encontrará, mientras que AIC puede que no, porque AIC puede continuar colocando una probabilidad posterior excesiva en modelos que son más complicados de lo necesario. Si, por otro lado, estamos más preocupados por la eficiencia, es decir, el error de predicción cuadrático medio mínimo, entonces, asintóticamente, AIC y AICc son "eficientes" mientras que BIC no lo es. [20]
Burnham y Anderson (1998, 2002) contribuyeron en gran medida a presentar a una audiencia más amplia las ideas básicas del modelo bayesiano promediando y popularizando la metodología. [21] La disponibilidad de software, incluidos otros paquetes de código abierto gratuitos para R más allá de los mencionados anteriormente, ayudó a que los métodos fueran accesibles a una audiencia más amplia. [22]
Haussler y col. (1994) mostró que cuando se usa BMA para la clasificación, su error esperado es como máximo el doble del error esperado del clasificador óptimo de Bayes. [23]
Combinación de modelos bayesianos
La combinación del modelo bayesiano (BMC) es una corrección algorítmica del promedio del modelo bayesiano (BMA). En lugar de muestrear cada modelo en el conjunto individualmente, toma muestras del espacio de posibles conjuntos (con ponderaciones de modelo extraídas al azar de una distribución de Dirichlet que tiene parámetros uniformes). Esta modificación supera la tendencia de BMA a converger hacia dar todo el peso a un solo modelo. Aunque BMC es algo más costoso computacionalmente que BMA, tiende a producir resultados dramáticamente mejores. Se ha demostrado que los resultados de BMC son mejores en promedio (con significación estadística) que BMA y embolsado. [24]
El uso de la ley de Bayes para calcular los pesos del modelo requiere calcular la probabilidad de los datos dados a cada modelo. Por lo general, ninguno de los modelos del conjunto es exactamente la distribución a partir de la cual se generaron los datos de entrenamiento, por lo que todos reciben correctamente un valor cercano a cero para este término. Esto funcionaría bien si el conjunto fuera lo suficientemente grande como para muestrear todo el espacio modelo, pero esto rara vez es posible. En consecuencia, cada patrón en los datos de entrenamiento hará que el peso del conjunto se desplace hacia el modelo en el conjunto más cercano a la distribución de los datos de entrenamiento. Básicamente, se reduce a un método innecesariamente complejo para realizar la selección del modelo.
Las posibles ponderaciones de un conjunto se pueden visualizar como si estuvieran sobre un símplex. En cada vértice del símplex, todo el peso se le da a un solo modelo en el conjunto. BMA converge hacia el vértice más cercano a la distribución de los datos de entrenamiento. Por el contrario, BMC converge hacia el punto en el que esta distribución se proyecta hacia el símplex. Es decir, en lugar de seleccionar el modelo más cercano a la distribución generadora, busca la combinación de modelos más cercana a la distribución generadora.
Los resultados de BMA a menudo se pueden aproximar mediante la validación cruzada para seleccionar el mejor modelo de un grupo de modelos. Del mismo modo, los resultados de BMC pueden aproximarse mediante el uso de validación cruzada para seleccionar la mejor combinación de conjunto de una muestra aleatoria de posibles ponderaciones.
Cubo de modelos
Un "cubo de modelos" es una técnica de conjunto en la que se utiliza un algoritmo de selección de modelos para elegir el mejor modelo para cada problema. Cuando se prueba con un solo problema, un grupo de modelos no puede producir mejores resultados que el mejor modelo del conjunto, pero cuando se evalúa en muchos problemas, normalmente producirá resultados mucho mejores, en promedio, que cualquier modelo del conjunto.
El enfoque más común utilizado para la selección de modelos es la selección de validación cruzada (a veces llamada "concurso de horneado"). Se describe con el siguiente pseudocódigo:
Para cada modelo m en el cubo: Do c veces: (donde 'c' es una constante) Divida aleatoriamente el conjunto de datos de entrenamiento en dos conjuntos de datos: A y B. Entrena m con A Prueba m con BSeleccione el modelo que obtenga la puntuación media más alta
La selección de validación cruzada se puede resumir en: "pruébelos todos con el conjunto de entrenamiento y elija el que funcione mejor". [25]
Gating es una generalización de la selección de validación cruzada. Implica entrenar a otro modelo de aprendizaje para decidir cuál de los modelos del cubo es el más adecuado para resolver el problema. A menudo, se utiliza un perceptrón para el modelo de activación. Puede usarse para elegir el "mejor" modelo, o puede usarse para dar un peso lineal a las predicciones de cada modelo en el segmento.
Cuando se utiliza un grupo de modelos con un gran conjunto de problemas, puede ser conveniente evitar entrenar algunos de los modelos que tardan mucho en entrenarse. Landmark Learning es un enfoque de metaaprendizaje que busca resolver este problema. Implica entrenar solo los algoritmos rápidos (pero imprecisos) en el depósito y luego usar el rendimiento de estos algoritmos para ayudar a determinar qué algoritmo lento (pero preciso) es más probable que funcione mejor. [26]
Apilado
El apilamiento (a veces llamado generalización apilada ) implica entrenar un algoritmo de aprendizaje para combinar las predicciones de varios otros algoritmos de aprendizaje. Primero, todos los demás algoritmos se entrenan usando los datos disponibles, luego se entrena un algoritmo combinador para hacer una predicción final usando todas las predicciones de los otros algoritmos como entradas adicionales. Si se usa un algoritmo combinador arbitrario, entonces el apilamiento puede representar teóricamente cualquiera de las técnicas de conjunto descritas en este artículo, aunque, en la práctica, a menudo se usa un modelo de regresión logística como combinador.
El apilamiento suele producir un rendimiento mejor que cualquiera de los modelos entrenados. [27] Se ha utilizado con éxito tanto en tareas de aprendizaje supervisado (regresión, [28] clasificación y aprendizaje a distancia [29] ) como en aprendizaje no supervisado (estimación de densidad). [30] También se ha utilizado para estimar la tasa de error del ensacado. [3] [31] Se ha informado que supera el promedio del modelo bayesiano. [32] Los dos mejores en la competencia de Netflix utilizaron la combinación , que puede considerarse una forma de apilamiento. [33]
Implementaciones en paquetes de estadísticas
- R : al menos tres paquetes ofrecen herramientas de promediado de modelos bayesianos, [34] incluido el paquete BMS (un acrónimo de Bayesian Model Selection), [35] el Paquete BAS (acrónimo de Bayesian Adaptive Sampling), [36] y el Paquete BMA . [37]
- Python : Scikit-learn , un paquete para aprendizaje automático en Python, ofrece paquetes para el aprendizaje por conjuntos, incluidos paquetes para métodos de empaquetado y promediado.
- MATLAB : los conjuntos de clasificación se implementan en Statistics and Machine Learning Toolbox. [38]
Aplicaciones de aprendizaje por conjuntos
En los últimos años, debido al creciente poder computacional que permite entrenar el aprendizaje de grandes conjuntos en un marco de tiempo razonable, el número de sus aplicaciones ha crecido cada vez más. [39] Algunas de las aplicaciones de los clasificadores de conjuntos incluyen:
Sensores remotos
Mapeo de cobertura terrestre
La cartografía de la cobertura terrestre es una de las principales aplicaciones de los sensores satelitales de observación de la Tierra , que utilizan datos geoespaciales y de teledetección para identificar los materiales y objetos que se encuentran en la superficie de las áreas objetivo. Generalmente, las clases de materiales objetivo incluyen carreteras, edificios, ríos, lagos y vegetación. [40] Algunos enfoques de aprendizaje por conjuntos diferentes basados en redes neuronales artificiales , [41] análisis de componentes principales del núcleo (KPCA), [42] árboles de decisión con impulso , [43] bosque aleatorio [40] y diseño automático de sistemas de clasificadores múltiples, [ 44] se proponen para identificar de manera eficiente los objetos de cobertura terrestre .
Detección de cambios
La detección de cambios es un problema de análisis de imágenes , que consiste en la identificación de lugares donde la cobertura del suelo ha cambiado con el tiempo. La detección de cambios se usa ampliamente en campos como el crecimiento urbano , la dinámica de la vegetación y los bosques , el uso de la tierra y el monitoreo de desastres . [45] Las primeras aplicaciones de los clasificadores de conjuntos en la detección de cambios están diseñadas con la mayoría de votos , [46] promedio bayesiano y la probabilidad posterior máxima . [47]
La seguridad informática
Denegación de servicio distribuida
La denegación de servicio distribuida es uno de los ciberataques más amenazadores que le pueden ocurrir a un proveedor de servicios de Internet . [39] Al combinar la salida de clasificadores individuales, los clasificadores de conjunto reducen el error total de detectar y discriminar tales ataques de multitudes flash legítimas . [48]
Detección de malware
La clasificación de códigos de malware , como virus informáticos , gusanos informáticos , troyanos , ransomware y spywares con el uso de técnicas de aprendizaje automático , se inspira en el problema de categorización de documentos . [49] Los sistemas de aprendizaje por conjuntos han demostrado una eficacia adecuada en esta área. [50] [51]
Detección de intrusiones
Un sistema de detección de intrusos monitorea la red informática o los sistemas informáticos para identificar códigos de intrusos como un proceso de detección de anomalías . El aprendizaje conjunto ayuda con éxito a dichos sistemas de monitoreo a reducir su error total. [52] [53]
Reconocimiento facial
El reconocimiento facial , que recientemente se ha convertido en una de las áreas de investigación más populares del reconocimiento de patrones , hace frente a la identificación o verificación de una persona mediante sus imágenes digitales . [54]
Los conjuntos jerárquicos basados en el clasificador de Gabor Fisher y las técnicas de preprocesamiento de análisis de componentes independientes son algunos de los primeros conjuntos empleados en este campo. [55] [56] [57]
Reconocimiento de emociones
Si bien el reconocimiento de voz se basa principalmente en el aprendizaje profundo porque la mayoría de los actores de la industria en este campo, como Google , Microsoft e IBM, revelan que la tecnología central de su reconocimiento de voz se basa en este enfoque, el reconocimiento de emociones basado en el habla también puede tener un rendimiento satisfactorio. con aprendizaje conjunto. [58] [59]
También se está utilizando con éxito en el reconocimiento de emociones faciales . [60] [61] [62]
Detección de fraudes
Detección de Fraude trata de la identificación de fraude bancario , tales como el lavado de dinero , fraude de tarjetas de crédito y fraude de las telecomunicaciones , que tienen vastos dominios de la investigación y las aplicaciones de aprendizaje automático . Debido a que el aprendizaje en conjunto mejora la solidez del modelado del comportamiento normal, se ha propuesto como una técnica eficiente para detectar tales casos y actividades fraudulentas en los sistemas bancarios y de tarjetas de crédito. [63] [64]
Toma de decisiones financieras
La precisión de la predicción de fallas comerciales es un tema muy crucial en la toma de decisiones financieras. Por lo tanto, se proponen diferentes clasificadores de conjuntos para predecir crisis financieras y dificultades financieras . [65] Además, en el problema de la manipulación basada en el comercio , donde los comerciantes intentan manipular los precios de las acciones mediante actividades de compra y venta, se requieren clasificadores conjuntos para analizar los cambios en los datos del mercado de valores y detectar síntomas sospechosos de manipulación del precio de las acciones . [sesenta y cinco]
Medicamento
Los clasificadores de conjuntos se han aplicado con éxito en neurociencia , proteómica y diagnóstico médico como en la detección de trastornos neurocognitivos (es decir, Alzheimer o distrofia miotónica ) basada en conjuntos de datos de resonancia magnética. [66] [67] [68]
Ver también
- Promedio de conjuntos (aprendizaje automático)
- Serie temporal estructural bayesiana (BSTS)
Referencias
- ^ Opitz, D .; Maclin, R. (1999). "Métodos conjuntos populares: un estudio empírico" . Revista de Investigación en Inteligencia Artificial . 11 : 169-198. doi : 10.1613 / jair.614 .
- ^ Polikar, R. (2006). "Sistemas basados en conjuntos en la toma de decisiones". Revista de circuitos y sistemas IEEE . 6 (3): 21–45. doi : 10.1109 / MCAS.2006.1688199 . S2CID 18032543 .
- ^ a b Rokach, L. (2010). "Clasificadores basados en conjuntos". Revisión de inteligencia artificial . 33 (1–2): 1–39. doi : 10.1007 / s10462-009-9124-7 . S2CID 11149239 .
- ^ Blockeel H. (2011). "Espacio de hipótesis". Enciclopedia de aprendizaje automático : 511–513. doi : 10.1007 / 978-0-387-30164-8_373 . ISBN 978-0-387-30768-8.
- ^ Kuncheva, L. y Whitaker, C., Medidas de diversidad en conjuntos de clasificadores, Machine Learning , 51, págs. 181-207, 2003
- ^ Sollich, P. y Krogh, A., Aprendizaje con conjuntos: cómo el sobreajuste puede ser útil , Avances en los sistemas de procesamiento de información neuronal, volumen 8, págs. 190-196, 1996.
- ^ Brown, G. y Wyatt, J. y Harris, R. y Yao, X., Métodos de creación de diversidad: una encuesta y categorización., Information Fusion , 6 (1), pp. 5-20, 2005.
- ^ Adeva, JJ García; Cerviño, Ulises; Calvo, R. "Precisión y diversidad en conjuntos de categorizadores de texto" (PDF) . Diario CLEI . 8 (2): 1–12. doi : 10.19153 / cleiej.8.2.1 .
- ^ Ho, T., Bosques de decisión aleatoria, Actas de la Tercera Conferencia Internacional sobre Análisis y Reconocimiento de Documentos , págs. 278-282, 1995.
- ^ Gashler, M .; Giraud-Carrier, C .; Martínez, T. (2008). "Conjunto de árboles de decisión: pequeño heterogéneo es mejor que grande homogéneo" (PDF) . La Séptima Conferencia Internacional sobre Aplicaciones y Aprendizaje Automático . 2008 : 900–905. doi : 10.1109 / ICMLA.2008.154 . ISBN 978-0-7695-3495-4. S2CID 614810 .
- ^ R. Bonab, Hamed; Can, Fazli (2016). Un marco teórico sobre el número ideal de clasificadores para conjuntos en línea en flujos de datos . CIKM. Estados Unidos: ACM. pag. 2053.
- ^ R. Bonab, Hamed; Can, Fazli (2019). Menos es más: un marco integral para el número de componentes de los clasificadores de conjuntos . TNNLS. Estados Unidos: IEEE. arXiv : 1709.02925 .
- ^ Tom M. Mitchell , Aprendizaje automático , 1997, págs. 175
- ^ Breiman, L., Predictores de embolsado, aprendizaje automático , 24 (2), pp.123-140, 1996.
- ^ p. ej., Jennifer A. Hoeting ; David Madigan ; Adrian Raftery ; Chris Volinsky (1999). "Promedio del modelo bayesiano: un tutorial" . Ciencia estadística . ISSN 0883-4237 . Wikidata Q98974344 .
- ^ Chris Fraley; Adrian Raftery ; J. McLean Sloughter; Tilmann Gneiting, ensembleBMA: Pronóstico probabilístico usando conjuntos y promedios de modelos bayesianos , Wikidata Q98972500
- ^ Adrian Raftery ; Jennifer Hoeting; Chris Volinsky; Ian Painter; Ka Yee Yeung, BMA: Promedio del modelo bayesiano , Wikidata Q91674106.
- ^ Adrian Raftery (1995). "Selección del modelo bayesiano en la investigación social". Metodología sociológica : 111-196. ISSN 0081-1750 . Wikidata Q91670340 .
- ^ Merlise A. Clyde ; Michael L. Littman ; Quanli Wang; Joyee Ghosh; Yingbo Li; Don van de Bergh, BAS: Selección de variables bayesianas y promediado de modelos mediante muestreo adaptativo bayesiano , Wikidata Q98974089.
- ^ Gerda Claeskens ; Nils Lid Hjort (2008), Selección de modelos y promediado de modelos , Cambridge University Press , Wikidata Q62568358, cap. 4.
- ^ Kenneth P. Burnham; David R. Anderson (1998), Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información , Wikidata Q62670082 y Kenneth P. Burnham; David R. Anderson (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información , Springer Science + Business Media , Wikidata Q76889160.
- ^ El artículo de Wikiversity sobre la búsqueda de paquetes R menciona varias formas de encontrar paquetes disponibles para algo como esto. Por ejemplo, “sos :: findFn ('{promediado del modelo bayesiano}')” dentro de R buscará archivos de ayuda en paquetes contribuidos que incluyen el término de búsqueda y abrirá dos pestañas en el navegador predeterminado. El primero enumerará todos los archivos de ayuda encontrados ordenados por paquete. El segundo resume los paquetes encontrados, ordenados por la aparente fuerza del partido.
- ^ Haussler, David; Kearns, Michael; Schapire, Robert E. (1994). "Limita la complejidad de la muestra del aprendizaje bayesiano utilizando la teoría de la información y la dimensión VC" . Aprendizaje automático . 14 : 83-113. doi : 10.1007 / bf00993163 .
- ^ Monteith, Kristine; Carroll, James; Seppi, Kevin; Martínez, Tony. (2011). Convertir el promedio de modelos bayesianos en una combinación de modelos bayesianos (PDF) . Actas de la Conferencia conjunta internacional sobre redes neuronales IJCNN'11. págs. 2657–2663.
- ^ Saso Dzeroski, Bernard Zenko, es mejor combinar clasificadores que seleccionar el mejor , Machine Learning, 2004, págs. 255-273
- ^ Bensusan, Hilan; Giraud-Carrier, Christophe (2000). "Descubrimiento de barrios de tareas a través de actuaciones de aprendizaje emblemáticas" (PDF) . Principios de minería de datos y descubrimiento de conocimientos . Apuntes de conferencias en Ciencias de la Computación. 1910 . págs. 325–330. doi : 10.1007 / 3-540-45372-5_32 . ISBN 978-3-540-41066-9.
- ^ Wolpert (1992). "Generalización apilada". Redes neuronales . 5 (2): 241-259. doi : 10.1016 / s0893-6080 (05) 80023-1 .
- ^ Breiman, Leo (1996). "Regresiones apiladas" . Aprendizaje automático . 24 : 49–64. doi : 10.1007 / BF00117832 .
- ^ Ozay, M .; Yarman Vural, FT (2013). "Una nueva técnica de generalización apilada difusa y análisis de su rendimiento". arXiv : 1204.0171 . Código bibliográfico : 2012arXiv1204.0171O . Cite journal requiere
|journal=
( ayuda ) - ^ Smyth, P. y Wolpert, DH, Estimadores de densidad de combinación lineal mediante apilamiento , Machine Learning Journal, 36, 59-83, 1999
- ^ Wolpert, DH y Macready, WG, Un método eficiente para estimar el error de generalización del embolsado , Machine Learning Journal, 35, 41-55, 1999
- ^ Clarke, B., Promedio y apilamiento del modelo de Bayes cuando no se puede ignorar el error de aproximación del modelo , Journal of Machine Learning Research, págs. 683-712, 2003
- ^ Sill, J .; Takacs, G .; Mackey, L .; Lin, D. (2009). "Apilamiento lineal ponderado por funciones". arXiv : 0911.0460 . Código bibliográfico : 2009arXiv0911.0460S . Cite journal requiere
|journal=
( ayuda ) - ^ Amini, Shahram M .; Parmeter, Christopher F. (2011). "Modelo bayesiano promediando en R" (PDF) . Revista de Medición Económica y Social . 36 (4): 253-287. doi : 10.3233 / JEM-2011-0350 .
- ^ "BMS: biblioteca de promedios de modelos bayesianos" . La Red Archivo R Integral . 2015-11-24 . Consultado el 9 de septiembre de 2016 .
- ^ "BAS: Promedio del modelo bayesiano usando muestreo adaptativo bayesiano" . La Red Archivo R Integral . Consultado el 9 de septiembre de 2016 .
- ^ "BMA: Promedio del modelo bayesiano" . La Red Archivo R Integral . Consultado el 9 de septiembre de 2016 .
- ^ "Conjuntos de clasificación" . MATLAB y Simulink . Consultado el 8 de junio de 2017 .
- ^ a b Woźniak, Michał; Graña, Manuel; Corchado, Emilio (marzo de 2014). "Un estudio de múltiples sistemas clasificadores como sistemas híbridos". Fusión de información . 16 : 3-17. doi : 10.1016 / j.inffus.2013.04.006 . hdl : 10366/134320 .
- ^ a b Rodríguez-Galiano, VF; Ghimire, B .; Rogan, J .; Chica-Olmo, M .; Rigol-Sanchez, JP (enero de 2012). "Una evaluación de la eficacia de un clasificador forestal aleatorio para la clasificación de la cubierta terrestre". Revista ISPRS de Fotogrametría y Percepción Remota . 67 : 93-104. Código Bibliográfico : 2012JPRS ... 67 ... 93R . doi : 10.1016 / j.isprsjprs.2011.11.002 .
- ^ Giacinto, Giorgio; Roli, Fabio (agosto de 2001). "Diseño de conjuntos de redes neuronales eficaces con fines de clasificación de imágenes". Computación de imagen y visión . 19 (9-10): 699-707. CiteSeerX 10.1.1.11.5820 . doi : 10.1016 / S0262-8856 (01) 00045-2 .
- ^ Xia, Junshi; Yokoya, Naoto; Iwasaki, Yakira (marzo de 2017). Un clasificador de conjuntos novedoso de datos hiperespectrales y LiDAR que utiliza características morfológicas . 2017 IEEE International Conference on Acustics, Speech and Signal Processing (ICASSP) . págs. 6185–6189. doi : 10.1109 / ICASSP.2017.7953345 . ISBN 978-1-5090-4117-6. S2CID 40210273 .
- ^ Mochizuki, S .; Murakami, T. (noviembre de 2012). "Comparación de precisión de la cartografía de la cobertura terrestre utilizando la clasificación de imágenes orientadas a objetos con algoritmos de aprendizaje automático". 33a Conferencia Asiática sobre Teledetección 2012, ACRS 2012 . 1 : 126-133.
- ^ Giacinto, G .; Roli, F .; Fumera, G. (septiembre de 2000). Diseño de sistemas de clasificadores múltiples efectivos mediante agrupación de clasificadores . Actas de la 15ª Conferencia Internacional sobre Reconocimiento de Patrones. ICPR-2000 . 2 . págs. 160-163. CiteSeerX 10.1.1.11.5328 . doi : 10.1109 / ICPR.2000.906039 . ISBN 978-0-7695-0750-7. S2CID 2625643 .
- ^ Du, Peijun; Liu, Sicong; Xia, Junshi; Zhao, Yindi (enero de 2013). "Técnicas de fusión de información para la detección de cambios a partir de imágenes de teledetección multitemporales". Fusión de información . 14 (1): 19-27. doi : 10.1016 / j.inffus.2012.05.003 .
- ^ Definido por Bruzzone et al. (2002) como "La clase de datos que recibe el mayor número de votos se toma como la clase del patrón de entrada", esto es mayoría simple , más exactamente descrita comovotación por pluralidad .
- ^ Bruzzone, Lorenzo; Cossu, Roberto; Vernazza, Gianni (diciembre de 2002). "Combinación de algoritmos paramétricos y no paramétricos para una clasificación parcialmente no supervisada de imágenes de teledetección multitemporales" (PDF) . Fusión de información . 3 (4): 289-297. doi : 10.1016 / S1566-2535 (02) 00091-X .
- ^ Raj Kumar, P. Arun; Selvakumar, S. (julio de 2011). "Detección de ataques de denegación de servicio distribuida mediante un conjunto de clasificador neuronal". Comunicaciones informáticas . 34 (11): 1328-1341. doi : 10.1016 / j.comcom.2011.01.012 .
- ^ Shabtai, Asaf; Moskovitch, Robert; Elovici, Yuval; Glezer, Chanan (febrero de 2009). "Detección de código malicioso mediante la aplicación de clasificadores de aprendizaje automático en características estáticas: una encuesta de vanguardia". Informe técnico de seguridad de la información . 14 (1): 16-29. doi : 10.1016 / j.istr.2009.03.003 .
- ^ Zhang, Boyun; Yin, Jianping; Hao, Jingbo; Zhang, Dingxing; Wang, Shulin (2007). Detección de códigos maliciosos basada en el aprendizaje por conjuntos . Computación autónoma y de confianza . Apuntes de conferencias en Ciencias de la Computación. 4610 . págs. 468–477. doi : 10.1007 / 978-3-540-73547-2_48 . ISBN 978-3-540-73546-5.
- ^ Menahem, Eitan; Shabtai, Asaf; Rokach, Lior; Elovici, Yuval (febrero de 2009). "Mejora de la detección de malware mediante la aplicación de conjuntos de inductores múltiples". Estadística computacional y análisis de datos . 53 (4): 1483–1494. CiteSeerX 10.1.1.150.2722 . doi : 10.1016 / j.csda.2008.10.015 .
- ^ Locasto, Michael E .; Wang, Ke; Keromytis, Angeles D .; Salvatore, J. Stolfo (2005). FLIPS: Prevención de intrusiones adaptativa híbrida . Avances recientes en la detección de intrusiones . Apuntes de conferencias en Ciencias de la Computación. 3858 . págs. 82-101. CiteSeerX 10.1.1.60.3798 . doi : 10.1007 / 11663812_5 . ISBN 978-3-540-31778-4.
- ^ Giacinto, Giorgio; Perdisci, Roberto; Del Rio, Mauro; Roli, Fabio (enero de 2008). "Detección de intrusiones en redes informáticas mediante un conjunto modular de clasificadores de una clase". Fusión de información . 9 (1): 69–82. CiteSeerX 10.1.1.69.9132 . doi : 10.1016 / j.inffus.2006.10.002 .
- ^ Mu, Xiaoyan; Lu, Jiangfeng; Watta, Paul; Hassoun, Mohamad H. (julio de 2009). Clasificadores de conjuntos ponderados basados en votaciones con aplicación al reconocimiento de rostros humanos y reconocimiento de voz . 2009 Conferencia conjunta internacional sobre redes neuronales . págs. 2168–2171. doi : 10.1109 / IJCNN.2009.5178708 . ISBN 978-1-4244-3548-7. S2CID 18850747 .
- ^ Yu, Su; Shan, Shiguang; Chen, Xilin; Gao, Wen (abril de 2006). Conjunto jerárquico del clasificador Gabor Fisher para reconocimiento facial . Reconocimiento Automático de Rostros y Gestos, 2006. FGR 2006. VII Congreso Internacional sobre Reconocimiento Automático de Rostros y Gestos (FGR06) . págs. 91–96. doi : 10.1109 / FGR.2006.64 . ISBN 978-0-7695-2503-7. S2CID 1513315 .
- ^ Su, Y .; Shan, S .; Chen, X .; Gao, W. (septiembre de 2006). Clasificador gabor fisher basado en parches para reconocimiento facial . Actas - Conferencia internacional sobre reconocimiento de patrones . 2 . págs. 528–531. doi : 10.1109 / ICPR.2006.917 . ISBN 978-0-7695-2521-1. S2CID 5381806 .
- ^ Liu, Yang; Lin, Yongzheng; Chen, Yuehui (julio de 2008). Clasificación de conjuntos basada en ICA para reconocimiento facial . Actas - 1er Congreso Internacional sobre Procesamiento de Imágenes y Señales, Conferencia IEEE, CISP 2008 . págs. 144-148. doi : 10.1109 / CISP.2008.581 . ISBN 978-0-7695-3119-9. S2CID 16248842 .
- ^ Rieger, Steven A .; Muraleedharan, Rajani; Ramachandran, Ravi P. (2014). El reconocimiento de emociones basadas voz utilizando la extracción de características espectrales y un conjunto de clasificadores KNN . Actas del Noveno Simposio Internacional sobre Procesamiento del Idioma Hablado Chino, ISCSLP 2014 . págs. 589–593. doi : 10.1109 / ISCSLP.2014.6936711 . ISBN 978-1-4799-4219-0. S2CID 31370450 .
- ^ Krajewski, Jarek; Batliner, Anton; Kessel, Silke (octubre de 2010). Comparación de varios clasificadores para la detección de la autoconfianza basada en el habla: un estudio piloto . 2010 20ª Conferencia Internacional sobre Reconocimiento de Patrones . págs. 3716–3719. doi : 10.1109 / ICPR.2010.905 . ISBN 978-1-4244-7542-1. S2CID 15431610 .
- ^ Rani, P. Ithaya; Muneeswaran, K. (25 de mayo de 2016). "Reconocer la emoción facial en secuencias de video usando rasgos temporales de ojo y boca de Gabor". Herramientas y aplicaciones multimedia . 76 (7): 10017–10040. doi : 10.1007 / s11042-016-3592-y . S2CID 20143585 .
- ^ Rani, P. Ithaya; Muneeswaran, K. (agosto de 2016). "Reconocimiento de emociones faciales basado en regiones de ojos y boca". Revista Internacional de Reconocimiento de Patrones e Inteligencia Artificial . 30 (7): 1655020. doi : 10.1142 / S021800141655020X .
- ^ Rani, P. Ithaya; Muneeswaran, K (28 de marzo de 2018). "Reconocimiento de emociones basado en componentes faciales" . Sādhanā . 43 (3). doi : 10.1007 / s12046-018-0801-6 .
- ^ Louzada, Francisco; Ara, Anderson (octubre de 2012). "Embolsado de redes probabilísticas de dependencia k: una poderosa herramienta alternativa de detección de fraude". Sistemas expertos con aplicaciones . 39 (14): 11583-11592. doi : 10.1016 / j.eswa.2012.04.024 .
- ^ Sundarkumar, G. Ganesh; Ravi, Vadlamani (enero de 2015). "Un novedoso método híbrido de submuestreo para minar conjuntos de datos desequilibrados en banca y seguros". Aplicaciones de ingeniería de la inteligencia artificial . 37 : 368–377. doi : 10.1016 / j.engappai.2014.09.019 .
- ^ a b Kim, Yoonseong; Sohn, So Young (agosto de 2012). "Detección de fraude bursátil mediante análisis de grupo de pares". Sistemas expertos con aplicaciones . 39 (10): 8986–8992. doi : 10.1016 / j.eswa.2012.02.025 .
- ^ Savio, A .; García-Sebastián, MT; Chyzyk, D .; Hernández, C .; Graña, M .; Sistiaga, A .; López de Munain, A .; Villanúa, J. (agosto de 2011). "Detección de trastornos neurocognitivos basada en vectores de características extraídos del análisis VBM de resonancia magnética estructural". Informática en Biología y Medicina . 41 (8): 600–610. doi : 10.1016 / j.compbiomed.2011.05.010 . PMID 21621760 .
- ^ Ayerdi, B .; Savio, A .; Graña, M. (junio de 2013). Metaensambles de clasificadores para la detección de la enfermedad de Alzheimer utilizando características independientes de ROI . Lecture Notes in Computer Science (incluidas las subseries Lecture Notes in Artificial Intelligence y Lecture Notes in Bioinformática) . Apuntes de conferencias en Ciencias de la Computación. 7931 . págs. 122–130. doi : 10.1007 / 978-3-642-38622-0_13 . ISBN 978-3-642-38621-3.
- ^ Gu, Quan; Ding, Yong-Sheng; Zhang, Tong-Liang (abril de 2015). "Un clasificador de conjunto basado en la predicción de clases de receptores acoplados a proteína G en baja homología". Neurocomputación . 154 : 110-118. doi : 10.1016 / j.neucom.2014.12.013 .
Otras lecturas
- Zhou Zhihua (2012). Métodos de conjunto: fundamentos y algoritmos . Chapman y Hall / CRC. ISBN 978-1-439-83003-1.
- Robert Schapire ; Yoav Freund (2012). Impulso: Fundamentos y Algoritmos . MIT. ISBN 978-0-262-01718-3.
enlaces externos
- Robi Polikar (ed.). "Aprendizaje en conjunto" . Scholarpedia .
- El kit de herramientas de Waffles (aprendizaje automático) contiene implementaciones de ensacado, refuerzo, promediado de modelos bayesianos, combinación de modelos bayesianos, cubos de modelos y otras técnicas de conjunto.