En el aprendizaje automático y las estadísticas , la selección de características , también conocida como selección de variables , selección de atributos o selección de subconjuntos de variables , es el proceso de seleccionar un subconjunto de características relevantes (variables, predictores) para su uso en la construcción de modelos. Las técnicas de selección de características se utilizan por varias razones:
- simplificación de modelos para facilitar su interpretación por parte de investigadores / usuarios, [1]
- tiempos de entrenamiento más cortos,
- para evitar la maldición de la dimensionalidad ,
- generalización mejorada al reducir el sobreajuste [2] (formalmente, reducción de la varianza [1] )
La premisa central cuando se utiliza una técnica de selección de características es que los datos contienen algunas características que son redundantes o irrelevantes y, por lo tanto, pueden eliminarse sin incurrir en mucha pérdida de información. [2] Redundante e irrelevante son dos nociones distintas, ya que una característica relevante puede ser redundante en presencia de otra característica relevante con la que está fuertemente correlacionada. [3]
Las técnicas de selección de características deben distinguirse de la extracción de características . [4] La extracción de características crea nuevas características a partir de funciones de las características originales, mientras que la selección de características devuelve un subconjunto de las características. Las técnicas de selección de características se utilizan a menudo en dominios donde hay muchas características y comparativamente pocas muestras (o puntos de datos). Los casos arquetípicos para la aplicación de la selección de características incluyen el análisis de textos escritos y datos de microarrays de ADN , donde hay muchos miles de características y algunas decenas a cientos de muestras.
Introducción
Un algoritmo de selección de características puede verse como la combinación de una técnica de búsqueda para proponer nuevos subconjuntos de características, junto con una medida de evaluación que puntúa los diferentes subconjuntos de características. El algoritmo más simple es probar cada posible subconjunto de características y encontrar la que minimiza la tasa de error. Se trata de una búsqueda exhaustiva del espacio, y es computacionalmente intratable para todos los conjuntos de características, excepto el más pequeño. La elección de la métrica de evaluación influye mucho en el algoritmo, y son estas métricas de evaluación las que distinguen entre las tres categorías principales de algoritmos de selección de características: envoltorios, filtros y métodos integrados. [3]
- Los métodos de envoltura utilizan un modelo predictivo para puntuar subconjuntos de características. Cada nuevo subconjunto se utiliza para entrenar un modelo, que se prueba en un conjunto de reserva. Contar el número de errores cometidos en ese conjunto de reserva (la tasa de error del modelo) da la puntuación para ese subconjunto. A medida que los métodos de envoltura entrenan un nuevo modelo para cada subconjunto, son muy intensivos en computación, pero generalmente proporcionan el conjunto de características de mejor rendimiento para ese tipo particular de modelo o problema típico.
- Los métodos de filtro utilizan una medida proxy en lugar de la tasa de error para puntuar un subconjunto de características. Esta medida se elige para que sea rápida de calcular, sin dejar de capturar la utilidad del conjunto de características. Las medidas comunes incluyen la información mutua , [3] la información mutua puntual , [5] el coeficiente de correlación producto-momento de Pearson , los algoritmos basados en relieve , [6] y la distancia inter / intraclase o las puntuaciones de las pruebas de significancia para cada clase / característica. combinaciones. [5] [7] Los filtros suelen ser menos intensivos en computación que los contenedores, pero producen un conjunto de características que no se ajusta a un tipo específico de modelo predictivo. [8] Esta falta de ajuste significa que un conjunto de características de un filtro es más general que el conjunto de un contenedor, por lo general brinda un rendimiento de predicción más bajo que un contenedor. Sin embargo, el conjunto de características no contiene los supuestos de un modelo de predicción, por lo que es más útil para exponer las relaciones entre las características. Muchos filtros proporcionan una clasificación de características en lugar de un subconjunto explícito de mejores características, y el punto de corte en la clasificación se elige mediante validación cruzada . Los métodos de filtrado también se han utilizado como un paso de preprocesamiento para los métodos de envoltura, lo que permite utilizar una envoltura en problemas más grandes. Otro enfoque popular es el algoritmo de eliminación de características recursivas, [9] comúnmente utilizado con Support Vector Machines para construir repetidamente un modelo y eliminar características con pesos bajos.
- Los métodos integrados son un grupo general de técnicas que realizan la selección de características como parte del proceso de construcción del modelo. El ejemplo de este enfoque es el método LASSO para construir un modelo lineal, que penaliza los coeficientes de regresión con una penalización L1, reduciendo muchos de ellos a cero. Cualquier característica que tenga coeficientes de regresión distintos de cero es "seleccionada" por el algoritmo LASSO. Las mejoras al LASSO incluyen Bolasso, que arranca muestras; [10] Regularización neta elástica , que combina la penalización L1 de LASSO con la penalización L2 de la regresión de la cresta ; y FeaLect, que puntúa todas las características basándose en un análisis combinatorio de coeficientes de regresión. [11] AEFS amplía aún más LASSO al escenario no lineal con codificadores automáticos. [12] Estos enfoques tienden a estar entre filtros y envoltorios en términos de complejidad computacional.
En el análisis de regresión tradicional , la forma más popular de selección de características es la regresión por pasos , que es una técnica de envoltura. Es un algoritmo codicioso que agrega la mejor característica (o elimina la peor característica) en cada ronda. El principal problema de control es decidir cuándo detener el algoritmo. En el aprendizaje automático, esto generalmente se realiza mediante validación cruzada . En estadística, se optimizan algunos criterios. Esto conduce al problema inherente del anidamiento. Se han explorado métodos más robustos, como la ramificación y el límite y la red lineal por partes.
Selección de subconjunto
La selección de subconjuntos evalúa la idoneidad de un subconjunto de características como grupo. Los algoritmos de selección de subconjuntos se pueden dividir en envoltorios, filtros y métodos integrados. Los contenedores utilizan un algoritmo de búsqueda para buscar en el espacio de posibles características y evaluar cada subconjunto ejecutando un modelo en el subconjunto. Los contenedores pueden ser computacionalmente costosos y tienen el riesgo de ajustarse demasiado al modelo. Los filtros son similares a los contenedores en el enfoque de búsqueda, pero en lugar de evaluar contra un modelo, se evalúa un filtro más simple. Las técnicas integradas están integradas y son específicas de un modelo.
Muchos enfoques de búsqueda populares utilizan la escalada codiciosa , que evalúa iterativamente un subconjunto candidato de características, luego modifica el subconjunto y evalúa si el nuevo subconjunto es una mejora con respecto al anterior. La evaluación de los subconjuntos requiere una métrica de puntuación que califique un subconjunto de características. La búsqueda exhaustiva generalmente no es práctica, por lo que en algún punto de parada definido por el implementador (u operador), el subconjunto de características con la puntuación más alta descubierta hasta ese punto se selecciona como el subconjunto de características satisfactorias. El criterio de detención varía según el algoritmo; Los posibles criterios incluyen: una puntuación de subconjunto supera un umbral, se ha superado el tiempo de ejecución máximo permitido de un programa, etc.
Las técnicas alternativas basadas en la búsqueda se basan en la búsqueda de proyección dirigida que encuentra proyecciones de baja dimensión de los datos que obtienen una puntuación alta: luego se seleccionan las características que tienen las proyecciones más grandes en el espacio de dimensión inferior.
Los enfoques de búsqueda incluyen:
- Exhaustivo [13]
- Mejor primero
- Recocido simulado
- Algoritmo genético [14]
- Selección de avance codicioso [15] [16] [17]
- Eliminación codiciosa hacia atrás
- Optimización del enjambre de partículas [18]
- Búsqueda de proyección dirigida
- Búsqueda de dispersión [19]
- Búsqueda de vecindario variable [20] [21]
Dos métricas de filtro populares para los problemas de clasificación son la correlación y la información mutua , aunque ninguna de las dos son métricas verdaderas o 'medidas de distancia' en el sentido matemático, ya que no obedecen a la desigualdad del triángulo y, por lo tanto, no calculan ninguna 'distancia' real; más bien deberían ser considerados como "puntuaciones". Estos puntajes se calculan entre una característica candidata (o un conjunto de características) y la categoría de salida deseada. Sin embargo, existen verdaderas métricas que son una función simple de la información mutua; [22] ver aquí .
Otras métricas de filtro disponibles incluyen:
- Separabilidad de clases
- Probabilidad de error
- Distancia entre clases
- Distancia probabilística
- Entropía
- Selección de características basada en la coherencia
- Selección de características basada en correlación
Criterios de optimalidad
La elección de los criterios de optimización es difícil ya que hay múltiples objetivos en una tarea de selección de características. Muchos criterios comunes incorporan una medida de precisión, penalizada por el número de características seleccionadas. Los ejemplos incluyen el criterio de información de Akaike (AIC) y el C p de Mallows , que tienen una penalización de 2 por cada característica agregada. AIC se basa en la teoría de la información y se deriva de manera efectiva a través del principio de máxima entropía . [23] [24]
Otros criterios son el criterio de información bayesiano (BIC), que utiliza una penalización depara cada característica agregada, longitud mínima de descripción (MDL) que utiliza asintóticamente, Bonferroni / RIC que utilizan, selección de características de dependencia máxima y una variedad de nuevos criterios motivados por la tasa de descubrimiento falso (FDR), que utilizan algo parecido a. También se puede utilizar un criterio de tasa de entropía máxima para seleccionar el subconjunto de características más relevante. [25]
Aprendizaje estructurado
La selección de características de filtro es un caso específico de un paradigma más general llamado aprendizaje de estructuras . La selección de características encuentra el conjunto de características relevantes para una variable objetivo específica, mientras que el aprendizaje de estructuras encuentra las relaciones entre todas las variables, generalmente expresando estas relaciones como un gráfico. Los algoritmos de aprendizaje de estructuras más comunes asumen que los datos son generados por una red bayesiana , por lo que la estructura es un modelo gráfico dirigido . La solución óptima al problema de selección de características de filtro es el manto de Markov del nodo de destino, y en una red bayesiana, hay un manto de Markov único para cada nodo. [26]
Mecanismos de selección de características basados en la teoría de la información
Existen diferentes mecanismos de selección de características que utilizan información mutua para calificar las diferentes características. Suelen utilizar el mismo algoritmo:
- Calcule la información mutua como puntuación entre todas las características () y la clase objetivo ()
- Seleccione la función con la puntuación más alta (p. Ej. ) y agréguelo al conjunto de características seleccionadas ()
- Calcule la puntuación que podría derivarse de la información mutua.
- Seleccione la función con la puntuación más alta y agréguela al conjunto de funciones seleccionadas (p. Ej. )
- Repita 3. y 4. hasta que se seleccione un cierto número de funciones (p. Ej. )
El enfoque más simple utiliza la información mutua como la puntuación "derivada". [27]
Sin embargo, existen diferentes enfoques que intentan reducir la redundancia entre funciones.
Selección de características de mínima redundancia máxima relevancia (mRMR)
Peng y col. [28] propuso un método de selección de características que puede utilizar información mutua, correlación o puntuaciones de distancia / similitud para seleccionar características. El objetivo es penalizar la relevancia de una función por su redundancia en presencia de las otras funciones seleccionadas. La relevancia de un conjunto de características S para la clase c se define por el valor promedio de todos los valores de información mutua entre la característica individual f i y la clase c de la siguiente manera:
- .
La redundancia de todas las características del conjunto S es el valor medio de todos los valores de información mutua entre la característica f i y la característica f j :
El criterio de mRMR es una combinación de dos medidas dadas anteriormente y se define de la siguiente manera:
Suponga que hay n características completas. Sea x i la función indicadora de pertenencia del conjunto para la característica f i , de modo que x i = 1 indica presencia y x i = 0 indica ausencia de la característica f i en el conjunto de características globalmente óptimo. Dejar y . Lo anterior puede entonces escribirse como un problema de optimización:
El algoritmo mRMR es una aproximación del algoritmo de selección de características de máxima dependencia teóricamente óptimo que maximiza la información mutua entre la distribución conjunta de las características seleccionadas y la variable de clasificación. Como mRMR aproxima el problema de estimación combinatoria con una serie de problemas mucho más pequeños, cada uno de los cuales solo involucra dos variables, utiliza probabilidades conjuntas por pares que son más robustas. En determinadas situaciones, el algoritmo puede subestimar la utilidad de las funciones, ya que no tiene forma de medir las interacciones entre las funciones, lo que puede aumentar la relevancia. Esto puede conducir a un rendimiento deficiente [27] cuando las características son inútiles individualmente, pero son útiles cuando se combinan (se encuentra un caso patológico cuando la clase es una función de paridad de las características). En general, el algoritmo es más eficiente (en términos de la cantidad de datos requeridos) que la selección de dependencia máxima teóricamente óptima, pero produce un conjunto de características con poca redundancia por pares.
El mRMR es un ejemplo de una gran clase de métodos de filtrado que intercambian relevancia y redundancia de diferentes formas. [27] [29]
Selección de funciones de programación cuadrática
mRMR es un ejemplo típico de una estrategia codiciosa incremental para la selección de características: una vez que se ha seleccionado una característica, no se puede deseleccionar en una etapa posterior. Si bien mRMR podría optimizarse mediante la búsqueda flotante para reducir algunas características, también podría reformularse como un problema de optimización de programación cuadrática global de la siguiente manera: [30]
dónde es el vector de relevancia de características asumiendo que hay n características en total, es la matriz de redundancia por pares de características, y representa pesos relativos de características. QPFS se resuelve mediante programación cuadrática. Recientemente se demostró que QFPS está sesgado hacia características con entropía más pequeña, [31] debido a su ubicación del término de auto-redundancia de característicasen la diagonal de H .
Información mutua condicional
Otro puntaje derivado de la información mutua se basa en la relevancia condicional: [31]
dónde y .
Una ventaja de SPEC CMI es que se puede resolver simplemente encontrando el vector propio dominante de Q , por lo que es muy escalable. SPEC CMI también maneja la interacción de características de segundo orden.
Información mutua conjunta
En un estudio de diferentes puntuaciones Brown et al. [27] recomendó la información mutua conjunta [32] como una buena puntuación para la selección de características. La partitura intenta encontrar la característica que agrega la información más nueva a las características ya seleccionadas para evitar la redundancia. La puntuación se formula de la siguiente manera:
La puntuación utiliza la información mutua condicional y la información mutua para estimar la redundancia entre las características ya seleccionadas () y la característica bajo investigación ().
Selección de características basada en lazo de criterio de independencia de Hilbert-Schmidt
Para datos de muestras pequeñas y de alta dimensión (por ejemplo, dimensionalidad> 10 5 y el número de muestras <10 3 ), el Lazo del criterio de independencia de Hilbert-Schmidt (Lazo HSIC) es útil. [33] El problema de optimización de HSIC Lasso se da como
dónde es una medida de independencia basada en el núcleo llamada el criterio de independencia (empírico) de Hilbert-Schmidt (HSIC), denota el rastro , es el parámetro de regularización, y son matrices de Gram centradas en la entrada y la salida , y son matrices de Gram, y son funciones del kernel, es la matriz de centrado, es la matriz de identidad m -dimensional ( m : el número de muestras),es el vector m -dimensional con todos unos, y es el -norma. HSIC siempre toma un valor no negativo, y es cero si y solo si dos variables aleatorias son estadísticamente independientes cuando se usa un kernel de reproducción universal como el kernel gaussiano.
El HSIC Lasso se puede escribir como
dónde es la norma de Frobenius . El problema de optimización es un problema de Lasso y, por lo tanto, puede resolverse de manera eficiente con un solucionador de Lasso de última generación, como el método lagrangiano doble aumentado .
Selección de características de correlación
La medida de selección de características de correlación (CFS) evalúa subconjuntos de características sobre la base de la siguiente hipótesis: "Los buenos subconjuntos de características contienen características altamente correlacionadas con la clasificación, pero no correlacionadas entre sí". [34] [35] La siguiente ecuación da el mérito de un subconjunto de características S que consta de k características:
Aquí, es el valor promedio de todas las correlaciones de clasificación de características, y es el valor promedio de todas las correlaciones característica-característica. El criterio CFS se define de la siguiente manera:
La y las variables se denominan correlaciones, pero no son necesariamente el coeficiente de correlación de Pearson o la ρ de Spearman . La disertación de Hall no usa ninguno de estos, pero usa tres medidas diferentes de relación, longitud mínima de descripción (MDL), incertidumbre simétrica y relieve .
Sea x i la función indicadora de pertenencia establecida para la característica f i ; entonces lo anterior se puede reescribir como un problema de optimización:
Los problemas combinatorios anteriores son, de hecho, problemas mixtos de programación lineal 0-1 que se pueden resolver mediante el uso de algoritmos de ramificación y acotación . [36]
Árboles regularizados
Se muestra que las características de un árbol de decisión o de un conjunto de árboles son redundantes. Se puede utilizar un método reciente llamado árbol regularizado [37] para la selección de subconjuntos de características. Los árboles regularizados penalizan el uso de una variable similar a las variables seleccionadas en los nodos del árbol anteriores para dividir el nodo actual. Los árboles regularizados solo necesitan construir un modelo de árbol (o un modelo de conjunto de árboles) y, por lo tanto, son computacionalmente eficientes.
Los árboles regularizados manejan naturalmente características, interacciones y no linealidades numéricas y categóricas. Son invariantes para atribuir escalas (unidades) e insensibles a valores atípicos y, por lo tanto, requieren poco procesamiento previo de datos, como la normalización . El bosque aleatorio regularizado (RRF) [38] es un tipo de árboles regularizados. El RRF guiado es un RRF mejorado que se guía por las puntuaciones de importancia de un bosque aleatorio ordinario.
Descripción general de los métodos metaheurísticos
Una metaheurística es una descripción general de un algoritmo dedicado a resolver problemas de optimización difíciles (por lo general, problemas NP difíciles ) para los que no existen métodos de resolución clásicos. Generalmente, una metaheurística es un algoritmo estocástico que tiende a alcanzar un óptimo global. Hay muchas metaheurísticas, desde una simple búsqueda local hasta un complejo algoritmo de búsqueda global.
Principios fundamentales
Los métodos de selección de características se presentan típicamente en tres clases según cómo combinan el algoritmo de selección y la construcción del modelo.
Método de filtrado
Los métodos de tipo de filtro seleccionan variables independientemente del modelo. Se basan únicamente en características generales como la correlación con la variable a predecir. Los métodos de filtrado suprimen las variables menos interesantes. Las otras variables serán parte de una clasificación o un modelo de regresión utilizado para clasificar o predecir datos. Estos métodos son particularmente efectivos en el tiempo de cálculo y resistentes al sobreajuste. [39]
Los métodos de filtrado tienden a seleccionar variables redundantes cuando no consideran las relaciones entre variables. Sin embargo, las características más elaboradas intentan minimizar este problema eliminando variables altamente correlacionadas entre sí, como el algoritmo de filtro basado en correlación rápida (FCBF). [40]
Método de envoltura
Los métodos de envoltura evalúan subconjuntos de variables lo que permite, a diferencia de los enfoques de filtro, detectar las posibles interacciones entre las variables. [41] Las dos principales desventajas de estos métodos son:
- El creciente riesgo de sobreajuste cuando el número de observaciones es insuficiente.
- El tiempo de cálculo significativo cuando el número de variables es grande.
Método incrustado
Recientemente se han propuesto métodos embebidos que intentan combinar las ventajas de ambos métodos anteriores. Un algoritmo de aprendizaje aprovecha su propio proceso de selección de variables y realiza la selección y clasificación de características simultáneamente, como el algoritmo FRMT. [42]
Aplicación de metaheurísticas de selección de características
Este es un estudio de la aplicación de metaheurísticas de selección de características utilizadas últimamente en la literatura. Esta encuesta fue realizada por J. Hammon en su tesis de 2013. [39]
Solicitud | Algoritmo | Acercarse | Clasificador | Función de evaluación | Referencia |
---|---|---|---|---|---|
SNP | Selección de características usando similitud de características | Filtrar | r 2 | Phuong 2005 [41] | |
SNP | Algoritmo genético | Envoltura | Árbol de decisión | Precisión de clasificación (10 veces) | Shah 2004 [43] |
SNP | Montañismo | Filtro + Envoltorio | Ingenuo bayesiano | Suma de cuadrados residual prevista | Largo 2007 [44] |
SNP | Recocido simulado | Ingenuo bayesiano | Precisión de clasificación (5 veces) | Ustunkar 2011 [45] | |
Segmentos de libertad condicional | Colonia de hormigas | Envoltura | Red neuronal artificial | MSE | Al-ani 2005 [ cita requerida ] |
Márketing | Recocido simulado | Envoltura | Regresión | AIC , r 2 | Meiri 2006 [46] |
Ciencias económicas | Recocido simulado, algoritmo genético | Envoltura | Regresión | BIC | Kapetanios 2007 [47] |
Masa espectral | Algoritmo genético | Envoltura | Regresión lineal múltiple, mínimos cuadrados parciales | error de predicción de la raíz cuadrada media | Broadhurst y col. 1997 [48] |
Correo no deseado | Mutación PSO + binaria | Envoltura | Árbol de decisión | costo ponderado | Zhang 2014 [18] |
Microarray | Búsqueda tabú + PSO | Envoltura | Máquina de vectores de soporte , K vecinos más cercanos | Distancia euclidiana | Chuang 2009 [49] |
Microarray | PSO + Algoritmo genético | Envoltura | Máquinas de vectores soporte | Precisión de clasificación (10 veces) | Alba 2007 [50] |
Microarray | Algoritmo genético + Búsqueda local iterada | Incorporado | Máquinas de vectores soporte | Precisión de clasificación (10 veces) | Duval 2009 [51] |
Microarray | Búsqueda local iterada | Envoltura | Regresión | Probabilidad posterior | Hans 2007 [52] |
Microarray | Algoritmo genético | Envoltura | K Vecinos más cercanos | Exactitud de la clasificación ( validación cruzada de dejar uno fuera ) | Jirapech-Umpai 2005 [53] |
Microarray | Algoritmo genético híbrido | Envoltura | K Vecinos más cercanos | Exactitud de la clasificación (validación cruzada de dejar uno fuera) | Oh 2004 [54] |
Microarray | Algoritmo genético | Envoltura | Máquinas de vectores soporte | Sensibilidad y especificidad | Xuan 2011 [55] |
Microarray | Algoritmo genético | Envoltura | Toda la máquina de vectores de soporte emparejada | Exactitud de la clasificación (validación cruzada de dejar uno fuera) | Peng 2003 [56] |
Microarray | Algoritmo genético | Incorporado | Máquinas de vectores soporte | Precisión de clasificación (10 veces) | Hernández 2007 [57] |
Microarray | Algoritmo genético | Híbrido | Máquinas de vectores soporte | Exactitud de la clasificación (validación cruzada de dejar uno fuera) | Huerta 2006 [58] |
Microarray | Algoritmo genético | Máquinas de vectores soporte | Precisión de clasificación (10 veces) | Muni 2006 [59] | |
Microarray | Algoritmo genético | Envoltura | Máquinas de vectores soporte | EH-DIALL, GRUPO | Jourdan 2005 [60] |
Enfermedad de Alzheimer | Prueba t de Welch | Filtrar | Máquinas de vectores soporte | Precisión de clasificación (10 veces) | Zhang 2015 [61] |
Visión por computador | Selección de funciones infinitas | Filtrar | Independiente | Precisión promedio , ROC AUC | Roffo 2015 [62] |
Microarrays | Centralidad de vectores propios FS | Filtrar | Independiente | Precisión promedio, exactitud, ROC AUC | Roffo y Melzi 2016 [63] |
XML | Tau simétrico (ST) | Filtrar | Clasificación asociativa estructural | Precisión, cobertura | Shaharanee y Hadzic 2014 |
Selección de funciones integradas en algoritmos de aprendizaje
Algunos algoritmos de aprendizaje realizan la selección de características como parte de su operación general. Éstas incluyen:
- -Técnicas de regularización, como regresión dispersa, LASSO y -SVM
- Árboles regularizados, [37] por ejemplo, bosque aleatorio regularizado implementado en el paquete RRF [38]
- Árbol de decisiones [64]
- Algoritmo memético
- Logit multinomial aleatorio (RMNL)
- Redes de codificación automática con una capa de cuello de botella
- Selección de características submodulares [65] [66] [67]
- Selección de funciones basadas en el aprendizaje local. [68] Comparado con los métodos tradicionales, no implica ninguna búsqueda heurística, puede manejar fácilmente problemas de varias clases y funciona tanto para problemas lineales como no lineales. También está respaldado por una sólida base teórica. Los experimentos numéricos demostraron que el método puede lograr una solución cercana a la óptima incluso cuando los datos contienen> 1 millón de características irrelevantes.
- Sistema de recomendación basado en la selección de funciones. [69] Los métodos de selección de características se introducen en la investigación del sistema de recomendación.
Ver también
- Análisis de conglomerados
- Procesamiento de datos
- Reducción de dimensionalidad
- Extracción de características
- Optimización de hiperparámetros
- Selección de modelo
- Alivio (selección de funciones)
Referencias
- ^ a b Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). Introducción al aprendizaje estadístico . Saltador. pag. 204.
- ^ a b Bermingham, Mairead L .; Pong-Wong, Ricardo; Spiliopoulou, Athina; Hayward, Caroline; Rudan, Igor; Campbell, Harry; Wright, Alan F .; Wilson, James F .; Agakov, Felix; Navarro, Pau; Haley, Chris S. (2015). "Aplicación de la selección de características de alta dimensión: evaluación para la predicción genómica en el hombre" . Sci. Rep. 5 : 10312. Bibcode : 2015NatSR ... 510312B . doi : 10.1038 / srep10312 . PMC 4437376 . PMID 25988841 .
- ^ a b c Guyon, Isabelle; Elisseeff, André (2003). "Introducción a la selección de características y variables" . JMLR . 3 .
- ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática del hablante". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . doi : 10.1016 / j.dsp.2020.102795 . S2CID 220665533 .
- ^ a b Yang, Yiming; Pedersen, Jan O. (1997). Un estudio comparativo sobre la selección de características en la categorización de texto (PDF) . ICML.
- ^ Urbanowicz, Ryan J .; Meeker, Melissa; LaCava, William; Olson, Randal S .; Moore, Jason H. (2018). "Selección de características basadas en relieve: introducción y revisión" . Revista de Informática Biomédica . 85 : 189-203. arXiv : 1711.08421 . doi : 10.1016 / j.jbi.2018.07.014 . PMC 6299836 . PMID 30031057 .
- ^ Forman, George (2003). "Un extenso estudio empírico de métricas de selección de características para la clasificación de texto" (PDF) . Revista de investigación sobre aprendizaje automático . 3 : 1289–1305.
- ^ Yishi Zhang; Shujuan Li; Teng Wang; Zigang Zhang (2013). "Selección de características basadas en divergencias para clases separadas". Neurocomputación . 101 (4): 32–42. doi : 10.1016 / j.neucom.2012.06.036 .
- ^ Guyon I .; Weston J .; Barnhill S .; Vapnik V. (2002). "Selección de genes para la clasificación del cáncer mediante máquinas de vectores de apoyo" . Aprendizaje automático . 46 (1–3): 389–422. doi : 10.1023 / A: 1012487302797 .
- ^ Bach, Francis R (2008). Bolasso: modele la estimación de lazo consistente a través del bootstrap . Actas de la 25a Conferencia Internacional sobre Aprendizaje Automático . págs. 33–40. doi : 10.1145 / 1390156.1390161 . ISBN 9781605582054. S2CID 609778 .
- ^ Zare, Habil (2013). "Puntuación de relevancia de características basadas en análisis combinatorio de Lasso con aplicación al diagnóstico de linfoma" . BMC Genomics . 14 : S14. doi : 10.1186 / 1471-2164-14-S1-S14 . PMC 3549810 . PMID 23369194 .
- ^ Kai Han; Yunhe Wang; Chao Zhang; Chao Li; Chao Xu (2018). Selección de funciones no supervisadas inspirada en el codificador automático . IEEE International Conference on Acustics, Speech and Signal Processing (ICASSP).
- ^ Hazimeh, Hussein; Mazumder, Rahul; Saab, Ali (2020). "Regresión dispersa a escala: ramificación y límite arraigada en la optimización de primer orden". arXiv : 2004.06152 [ stat.CO ].
- ^ Soufan, Othman; Kleftogiannis, Dimitrios; Kalnis, Panos; Bajic, Vladimir B. (26 de febrero de 2015). "DWFS: una herramienta de selección de características de envoltura basada en un algoritmo genético paralelo" . PLOS ONE . 10 (2): e0117988. Código bibliográfico : 2015PLoSO..1017988S . doi : 10.1371 / journal.pone.0117988 . ISSN 1932-6203 . PMC 4342225 . PMID 25719748 .
- ^ Figueroa, Alejandro (2015). "Explorando funciones efectivas para reconocer la intención del usuario detrás de las consultas web" . Computadoras en la industria . 68 : 162-169. doi : 10.1016 / j.compind.2015.01.005 .
- ^ Figueroa, Alejandro; Guenter Neumann (2013). Aprender a clasificar paráfrasis efectivas a partir de registros de consultas para responder a preguntas de la comunidad . AAAI.
- ^ Figueroa, Alejandro; Guenter Neumann (2014). "Modelos de categorías específicas para clasificar paráfrasis efectivas en la respuesta a preguntas de la comunidad" . Sistemas expertos con aplicaciones . 41 (10): 4730–4742. doi : 10.1016 / j.eswa.2014.02.004 . hdl : 10533/196878 .
- ^ a b Zhang, Y .; Wang, S .; Phillips, P. (2014). "PSO binario con operador de mutación para la selección de funciones mediante el árbol de decisión aplicado a la detección de spam". Sistemas basados en el conocimiento . 64 : 22–31. doi : 10.1016 / j.knosys.2014.03.015 .
- ^ FC García-López, M. García-Torres, B. Melian, JA Moreno-Perez, JM Moreno-Vega. Resolución de problemas de selección de subconjuntos de características mediante una búsqueda de dispersión paralela , European Journal of Operational Research , vol. 169, no. 2, págs. 477–489, 2006.
- ^ FC García-López, M. García-Torres, B. Melian, JA Moreno-Perez, JM Moreno-Vega. Resolución de problemas de selección de subconjuntos de características mediante una metaheurística híbrida . En Primer Taller Internacional sobre Metaheurística Híbrida , págs. 59–68, 2004.
- ^ M. García-Torres, F. Gómez-Vela, B. Melian, JM Moreno-Vega. Selección de características de alta dimensión mediante agrupación de características: un enfoque de búsqueda de vecindario variable , Ciencias de la información , vol. 326, págs.102-118, 2016.
- ^ Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G; Grassberger, Peter (2003). "Agrupación jerárquica basada en información mutua". arXiv : q-bio / 0311039 . Código bibliográfico : 2003q.bio .... 11039K . Cite journal requiere
|journal=
( ayuda ) - ^ Akaike, H. (1985), "Predicción y entropía", en Atkinson, AC; Fienberg, SE (eds.), A Celebration of Statistics (PDF) , Springer, págs. 1–24.
- ^ Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información (2a ed.), Springer-Verlag , ISBN 9780387953649.
- ^ Einicke, GA (2018). "Selección de la tasa de entropía máxima de características para clasificar los cambios en la dinámica de la rodilla y el tobillo durante la carrera". IEEE Journal of Biomedical and Health Informatics . 28 (4): 1097-1103. doi : 10.1109 / JBHI.2017.2711487 . PMID 29969403 . S2CID 49555941 .
- ^ Aliferis, Constantin (2010). "Inducción local causal y manta de Markov para el descubrimiento causal y la selección de características para la clasificación parte I: algoritmos y evaluación empírica" (PDF) . Revista de investigación sobre aprendizaje automático . 11 : 171-234.
- ^ a b c d Brown, Gavin; Pocock, Adam; Zhao, Ming-Jie; Luján, Mikel (2012). "Maximización de la probabilidad condicional: un marco unificador para la selección de características teóricas de la información" . Revista de investigación sobre aprendizaje automático . 13 : 27–66.[1]
- ^ Peng, HC; Long, F .; Ding, C. (2005). "Selección de características basada en información mutua: criterios de máxima dependencia, máxima relevancia y mínima redundancia". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 27 (8): 1226-1238. CiteSeerX 10.1.1.63.5765 . doi : 10.1109 / TPAMI.2005.159 . PMID 16119262 . S2CID 206764015 . Programa
- ^ Nguyen, H., Franke, K., Petrovic, S. (2010). "Hacia una medida genérica de selección de características para la detección de intrusiones", en proceso. Conferencia Internacional sobre Reconocimiento de Patrones (ICPR), Estambul, Turquía. [2]
- ^ Rodríguez-Luján, I .; Huerta, R .; Elkan, C .; Santa Cruz, C. (2010). "Selección de funciones de programación cuadrática" (PDF) . JMLR . 11 : 1491-1516.
- ^ a b Nguyen X. Vinh, Jeffrey Chan, Simone Romano y James Bailey, "Enfoques globales efectivos para la selección de características basadas en información mutua". Actas de la 20ª Conferencia ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos (KDD'14), 24-27 de agosto, Ciudad de Nueva York, 2014. " [3] "
- ^ Yang, Howard Hua; Moody, John (2000). "Visualización de datos y selección de características: nuevos algoritmos para datos no gaussianos" (PDF) . Avances en los sistemas de procesamiento de información neuronal : 687–693.
- ^ Yamada, M .; Jitkrittum, W .; Sigal, L .; Xing, EP; Sugiyama, M. (2014). "Selección de características de alta dimensión por lazo no lineal de características". Computación neuronal . 26 (1): 185-207. arXiv : 1202.0515 . doi : 10.1162 / NECO_a_00537 . PMID 24102126 . S2CID 2742785 .
- ^ Hall, M. (1999). Selección de funciones basada en correlación para el aprendizaje automático (PDF) (tesis doctoral). Universidad de Waikato.
- ^ Senliol, Baris; et al. (2008). "Filtro basado en correlación rápida (FCBF) con una estrategia de búsqueda diferente". 2008 23º Simposio Internacional de Ciencias de la Información y la Computación : 1–4. doi : 10.1109 / ISCIS.2008.4717949 . ISBN 978-1-4244-2880-9. S2CID 8398495 .
- ^ Nguyen, Hai; Franke, Katrin; Petrovic, Slobodan (diciembre de 2009). "Optimización de una clase de medidas de selección de características" . Actas del taller NIPS 2009 sobre optimización discreta en aprendizaje automático: submodularidad, escasez y poliedros (DISCML) . Vancouver, Canada.
- ^ a b H. Deng, G. Runger, " Selección de características a través de árboles regularizados ", Actas de la Conferencia conjunta internacional de 2012 sobre redes neuronales (IJCNN), IEEE, 2012
- ^ a b RRF: Bosque aleatorio regularizado , paquete R en CRAN
- ^ a b Hamon, Julie (noviembre de 2013). Optimización combinatoire pour la sélection de variables en régression en grande dimension: Application en génétique animale (Tesis) (en francés). Universidad de Ciencia y Tecnología de Lille .
- ^ Yu, Lei; Liu, Huan (agosto de 2003). "Selección de características para datos de alta dimensión: una solución de filtro basada en correlación rápida" (PDF) . ICML'03: Actas de la Vigésima Conferencia Internacional sobre la Conferencia Internacional sobre Aprendizaje Automático : 856–863.
- ↑ a b T. M. Phuong, Z. Lin y RB Altman. Elegir SNP mediante la selección de funciones. Archivado el 13 de septiembre de 2016 en las Wayback Machine Proceedings / IEEE Computational Systems Bioinformatics Conference, CSB. Conferencia de bioinformática de sistemas computacionales de IEEE, páginas 301-309, 2005. PMID 16447987 .
- ^ Saghapour, E .; Kermani, S .; Sehhati, M. (2017). "Un método de clasificación de características novedoso para la predicción de las etapas del cáncer utilizando datos de proteómica" . PLOS ONE . 12 (9): e0184203. Código Bib : 2017PLoSO..1284203S . doi : 10.1371 / journal.pone.0184203 . PMC 5608217 . PMID 28934234 .
- ^ Shah, SC; Kusiak, A. (2004). "Minería de datos y selección de genes / SNP basados en algoritmos genéticos". Inteligencia artificial en Medicina . 31 (3): 183-196. doi : 10.1016 / j.artmed.2004.04.002 . PMID 15302085 .
- ^ Long, N .; Gianola, D .; Weigel, K. A (2011). "Reducción de dimensión y selección de variables para la selección genómica: aplicación para predecir la producción de leche en Holstein". Revista de Genética y Cría Animal . 128 (4): 247-257. doi : 10.1111 / j.1439-0388.2011.00917.x . PMID 21749471 .
- ^ Üstünkar, Gürkan; Özöğür-Akyüz, Süreyya; Weber, Gerhard W .; Friedrich, Christoph M .; Aydın Son, Yeşim (2012). "Selección de conjuntos de SNP representativos para estudios de asociación de todo el genoma: un enfoque metaheurístico". Cartas de optimización . 6 (6): 1207–1218. doi : 10.1007 / s11590-011-0419-7 . S2CID 8075318 .
- ^ Meiri, R .; Zahavi, J. (2006). "Uso de recocido simulado para optimizar el problema de selección de características en aplicaciones de marketing". Revista europea de investigación operativa . 171 (3): 842–858. doi : 10.1016 / j.ejor.2004.09.010 .
- ^ Kapetanios, G. (2007). "Selección de variables en modelos de regresión utilizando criterios de optimización no estándar de información". Estadística computacional y análisis de datos . 52 (1): 4–15. doi : 10.1016 / j.csda.2007.04.006 .
- ^ Broadhurst, D .; Goodacre, R .; Jones, A .; Rowland, JJ; Kell, DB (1997). "Algoritmos genéticos como método de selección de variables en regresión lineal múltiple y regresión de mínimos cuadrados parciales, con aplicaciones a la espectrometría de masas por pirólisis". Analytica Chimica Acta . 348 (1-3): 71-86. doi : 10.1016 / S0003-2670 (97) 00065-2 .
- ^ Chuang, L.-Y .; Yang, C.-H. (2009). "Búsqueda tabú y optimización de enjambre de partículas binarias para la selección de características utilizando datos de microarrays". Revista de Biología Computacional . 16 (12): 1689-1703. doi : 10.1089 / cmb.2007.0211 . PMID 20047491 .
- ^ E. Alba, J. Garia-Nieto, L. Jourdan et E.-G. Talbi. Selección de genes en la clasificación del cáncer mediante algoritmos híbridos PSO-SVM y GA-SVM. Congreso sobre Computación Evolutiva, Singapur: Singapur (2007), 2007
- ^ B. Duval, J.-K. Hao y JC Hernandez Hernandez. Un algoritmo memético para la selección de genes y clasificación molecular de un cáncer. En Actas de la undécima conferencia anual sobre computación genética y evolutiva, GECCO '09, páginas 201-208, Nueva York, NY, EE. UU., 2009. ACM.
- ^ C. Hans, A. Dobra y M. West. Búsqueda estocástica de escopeta para la regresión 'p grande' . Revista de la Asociación Estadounidense de Estadística, 2007.
- ^ Aitken, S. (2005). "Selección de características y clasificación para el análisis de datos de microarrays: métodos evolutivos para identificar genes predictivos" . BMC Bioinformática . 6 (1): 148. doi : 10.1186 / 1471-2105-6-148 . PMC 1181625 . PMID 15958165 .
- ^ Oh, ES; Moon, BR (2004). "Algoritmos genéticos híbridos para la selección de características". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 26 (11): 1424-1437. CiteSeerX 10.1.1.467.4179 . doi : 10.1109 / tpami.2004.105 . PMID 15521491 .
- ^ Xuan, P .; Guo, MZ; Wang, J .; Liu, XY; Liu, Y. (2011). "Selección de características eficiente basada en algoritmos genéticos para la clasificación de pre-miARN" . Genética e Investigación Molecular . 10 (2): 588–603. doi : 10.4238 / vol10-2gmr969 . PMID 21491369 .
- ^ Peng, S. (2003). "Clasificación molecular de tipos de cáncer a partir de datos de microarrays utilizando la combinación de algoritmos genéticos y máquinas de vectores de apoyo" . Cartas FEBS . 555 (2): 358–362. doi : 10.1016 / s0014-5793 (03) 01275-4 . PMID 14644442 .
- ^ Hernández, JCH; Duval, B .; Hao, J.-K. (2007). "Un enfoque genético incrustado para la selección de genes y clasificación de datos de microarrays". Computación evolutiva, aprendizaje automático y minería de datos en bioinformática. EvoBIO 2007 . Apuntes de conferencias en informática. vol 4447. Berlín: Springer Verlag. págs. 90-101. doi : 10.1007 / 978-3-540-71783-6_9 . ISBN 978-3-540-71782-9.
|volume=
tiene texto extra ( ayuda ) - ^ Huerta, EB; Duval, B .; Hao, J.-K. (2006). "Un enfoque híbrido GA / SVM para la selección de genes y clasificación de datos de microarrays". Aplicaciones de la Computación Evolutiva. EvoWorkshops 2006 . Apuntes de conferencias en informática. vol 3907. págs. 34–44. doi : 10.1007 / 11732242_4 . ISBN 978-3-540-33237-4.
|volume=
tiene texto extra ( ayuda ) - ^ Muni, DP; Pal, NR; Das, J. (2006). "Programación genética para la selección simultánea de características y diseño de clasificadores". Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética: Cibernética . 36 (1): 106-117. doi : 10.1109 / TSMCB.2005.854499 . PMID 16468570 . S2CID 2073035 .
- ^ Jourdan, L .; Dhaenens, C .; Talbi, E.-G. (2005). "Estudio de desequilibrio de ligamiento con un GA adaptativo paralelo". Revista Internacional de Fundamentos de la Ciencia de la Computación . 16 (2): 241–260. doi : 10.1142 / S0129054105002978 .
- ^ Zhang, Y .; Dong, Z .; Phillips, P .; Wang, S. (2015). "Detección de sujetos y regiones cerebrales relacionadas con la enfermedad de Alzheimer mediante exploraciones de resonancia magnética 3D basadas en eigenbrain y aprendizaje automático" . Fronteras en neurociencia computacional . 9 : 66. doi : 10.3389 / fncom.2015.00066 . PMC 4451357 . PMID 26082713 .
- ^ Roffo, G .; Melzi, S .; Cristani, M. (1 de diciembre de 2015). Selección de funciones infinitas . 2015 IEEE International Conference on Computer Vision (ICCV) . págs. 4202–4210. doi : 10.1109 / ICCV.2015.478 . ISBN 978-1-4673-8391-2. S2CID 3223980 .
- ^ Roffo, Giorgio; Melzi, Simone (septiembre de 2016). "Selección de características a través de la centralidad de vector propio" (PDF) . NFmcp2016 . Consultado el 12 de noviembre de 2016 .
- ^ R. Kohavi y G. John, " Envoltorios para la selección de subconjuntos de características ", Inteligencia artificial 97.1-2 (1997): 273-324
- ^ Das, Abhimanyu; Kempe, David (2011). "Submodular cumple espectral: algoritmos codiciosos para la selección de subconjuntos, aproximación dispersa y selección de diccionario". arXiv : 1102.3975 [ stat.ML ].
- ^ Liu et al., Selección de características submodulares para espacios de puntuación acústica de alta dimensión Archivado el 17 de octubre de 2015 en la Wayback Machine.
- ^ Zheng et al., Selección de atributos submodulares para el reconocimiento de acciones en video Archivado el 18 de noviembre de 2015 en la Wayback Machine.
- ^ Sun, Y .; Todorovic, S .; Goodison, S. (2010). "[https://ieeexplore.ieee.org/abstract/document/5342431/ Selección de características basadas en el aprendizaje local para el análisis de datos de alta dimensión]" . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 32 (9): 1610–1626. doi : 10.1109 / tpami.2009.190 . PMC 3445441 . PMID 20634556 . Enlace externo en
|title=
( ayuda ) - ^ DH Wang, YC Liang, D.Xu, XY Feng, RC Guan (2018), " Un sistema de recomendación basado en contenido para publicaciones informáticas ", Sistemas basados en el conocimiento , 157: 1-9
Otras lecturas
- Guyon, Isabelle; Elisseeff, Andre (2003). "Introducción a la selección de características y variables" . Revista de investigación sobre aprendizaje automático . 3 : 1157-1182.
- Harrell, F. (2001). Estrategias de modelado de regresión . Saltador. ISBN 0-387-95232-2.
- Liu, Huan; Motoda, Hiroshi (1998). Selección de funciones para el descubrimiento de conocimientos y la minería de datos . Saltador. ISBN 0-7923-8198-X.
- Liu, Huan; Yu, Lei (2005). "Hacia la integración de algoritmos de selección de características para clasificación y agrupación". Transacciones IEEE sobre conocimiento e ingeniería de datos . 17 (4): 491–502. doi : 10.1109 / TKDE.2005.66 . S2CID 1607600 .
enlaces externos
- Paquete de selección de funciones, Universidad Estatal de Arizona (Código Matlab)
- NIPS Challenge 2003 (ver también NIPS )
- Implementación ingenua de Bayes con selección de funciones en Visual Basic (incluye código fuente y ejecutable)
- Programa de selección de características de mínima redundancia máxima relevancia (mRMR)
- FEAST (algoritmos de selección de características de código abierto en C y MATLAB)