Selección de características

En el aprendizaje automático y las estadísticas , la selección de funciones , también conocida como selección de variables, selección de atributos o selección de subconjuntos de variables , es el proceso de seleccionar un subconjunto de funciones relevantes (variables, predictores) para usar en la construcción de modelos. Las técnicas de selección de características se utilizan por varias razones:

La premisa central cuando se utiliza una técnica de selección de características es que los datos contienen algunas características que son redundantes o irrelevantes y, por lo tanto, se pueden eliminar sin incurrir en una gran pérdida de información. ^[9] Redundante e irrelevante son dos nociones distintas, ya que una característica relevante puede ser redundante en presencia de otra característica relevante con la que está fuertemente correlacionada. ^[10]

Las técnicas de selección de características deben distinguirse de la extracción de características . ^{[11] La} extracción de funciones crea nuevas funciones a partir de funciones de las funciones originales, mientras que la selección de funciones devuelve un subconjunto de las funciones. Las técnicas de selección de características a menudo se usan en dominios donde hay muchas características y comparativamente pocas muestras (o puntos de datos). Los casos arquetípicos para la aplicación de la selección de características incluyen el análisis de textos escritos y datos de micromatrices de ADN , donde hay muchos miles de características y algunas decenas o cientos de muestras.

Un algoritmo de selección de características puede verse como la combinación de una técnica de búsqueda para proponer nuevos subconjuntos de características, junto con una medida de evaluación que puntúa los diferentes subconjuntos de características. El algoritmo más simple es probar cada posible subconjunto de características para encontrar la que minimiza la tasa de error. Esta es una búsqueda exhaustiva del espacio y es computacionalmente intratable para todos los conjuntos de características excepto para los más pequeños. La elección de la métrica de evaluación influye en gran medida en el algoritmo, y son estas métricas de evaluación las que distinguen entre las tres categorías principales de algoritmos de selección de características: contenedores, filtros y métodos integrados. ^[10]

En el análisis de regresión tradicional , la forma más popular de selección de características es la regresión por pasos , que es una técnica de envoltura. Es un algoritmo codicioso que agrega la mejor característica (o elimina la peor característica) en cada ronda. El principal problema de control es decidir cuándo detener el algoritmo. En el aprendizaje automático, esto generalmente se realiza mediante validación cruzada . En estadística, se optimizan algunos criterios. Esto conduce al problema inherente de la anidación. Se han explorado métodos más robustos, como ramificar y acotar y redes lineales por partes.

La selección de subconjuntos evalúa la idoneidad de un subconjunto de entidades como un grupo. Los algoritmos de selección de subconjuntos se pueden dividir en contenedores, filtros y métodos integrados. Los contenedores utilizan un algoritmo de búsqueda para buscar en el espacio de posibles características y evaluar cada subconjunto ejecutando un modelo en el subconjunto. Los envoltorios pueden ser computacionalmente costosos y tienen el riesgo de sobreajustarse al modelo. Los filtros son similares a los contenedores en el enfoque de búsqueda, pero en lugar de evaluar contra un modelo, se evalúa un filtro más simple. Las técnicas integradas están integradas y son específicas de un modelo.

Método de filtro para la selección de características

Método de envoltorio para la selección de características

Método integrado para la selección de características