Este artículo tiene varios problemas. Ayude a mejorarlo o discuta estos problemas en la página de discusión . ( Obtenga información sobre cómo y cuándo eliminar estos mensajes de plantilla )
|
El sobremuestreo y el submuestreo en el análisis de datos son técnicas que se utilizan para ajustar la distribución de clases de un conjunto de datos (es decir, la relación entre las diferentes clases / categorías representadas). Estos términos se utilizan tanto en muestreo estadístico, metodología de diseño de encuestas como en aprendizaje automático .
El sobremuestreo y el submuestreo son técnicas opuestas y aproximadamente equivalentes. También existen técnicas de sobremuestreo más complejas, incluida la creación de puntos de datos artificiales con algoritmos como la técnica de sobremuestreo de minorías sintéticas . [1] [2]
Tanto el sobremuestreo como el submuestreo implican introducir un sesgo para seleccionar más muestras de una clase que de otra, para compensar un desequilibrio que ya está presente en los datos o que es probable que se desarrolle si se toma una muestra puramente aleatoria. El desequilibrio de datos puede ser de los siguientes tipos:
El sobremuestreo generalmente se emplea con más frecuencia que el submuestreo, especialmente cuando los datos detallados aún no se han recopilado mediante encuestas, entrevistas o de otro modo. El submuestreo se emplea con mucha menos frecuencia. La sobreabundancia de datos ya recopilados se convirtió en un problema solo en la era del "Big Data", y las razones para utilizar el submuestreo son principalmente prácticas y están relacionadas con los costos de los recursos. Específicamente, si bien se necesita un tamaño de muestra suficientemente grande para sacar conclusiones estadísticas válidas, los datos deben limpiarse antes de que puedan usarse. La limpieza suele implicar un componente humano importante y suele ser específica del conjunto de datos y del problema analítico, por lo que requiere tiempo y dinero. Por ejemplo:
Por estas razones, normalmente se limpiarán solo los datos necesarios para responder una pregunta con una confianza estadística razonable (consulte Tamaño de la muestra), pero no más que eso.
El sobremuestreo aleatorio implica complementar los datos de entrenamiento con varias copias de algunas de las clases minoritarias. El sobremuestreo se puede realizar más de una vez (2x, 3x, 5x, 10x, etc.). Este es uno de los primeros métodos propuestos, que también ha demostrado ser robusto. [3] En lugar de duplicar todas las muestras de la clase minoritaria, algunas de ellas pueden elegirse al azar con reemplazo.
Hay varios métodos disponibles para sobremuestrear un conjunto de datos utilizado en un problema de clasificación típico (utilizando un algoritmo de clasificación para clasificar un conjunto de imágenes, dado un conjunto de imágenes de entrenamiento etiquetado). La técnica más común se conoce como SMOTE: Técnica de sobremuestreo de minorías sintéticas. [4] Para ilustrar cómo funciona esta técnica, considere algunos datos de entrenamiento que tienen muestras s y características f en el espacio de características de los datos. Tenga en cuenta que estas características, por simplicidad, son continuas. Como ejemplo, considere un conjunto de datos de aves para su clasificación. El espacio de características para la clase minoritaria para la que queremos sobremuestrear podría ser la longitud del pico, la envergadura y el peso (todo continuo). Para luego sobremuestrear, tome una muestra del conjunto de datos y considere suk vecinos más cercanos (en el espacio de características). Para crear un punto de datos sintéticos, tome el vector entre uno de esos k vecinos y el punto de datos actual. Multiplique este vector por un número aleatorio x que se encuentre entre 0 y 1. Agregue esto al punto de datos actual para crear el nuevo punto de datos sintéticos.
Se han realizado muchas modificaciones y ampliaciones al método SMOTE desde su propuesta. [5]
El enfoque de muestreo sintético adaptativo, o algoritmo ADASYN, [6] se basa en la metodología de SMOTE, al trasladar la importancia del límite de clasificación a las clases minoritarias que son difíciles. ADASYN utiliza una distribución ponderada para diferentes ejemplos de clases minoritarias de acuerdo con su nivel de dificultad en el aprendizaje, donde se generan más datos sintéticos para ejemplos de clases minoritarias que son más difíciles de aprender.
El aumento de datos en el análisis de datos son técnicas que se utilizan para aumentar la cantidad de datos agregando copias ligeramente modificadas de datos ya existentes o datos sintéticos recién creados a partir de datos existentes. Actúa como un regularizador y ayuda a reducir el sobreajuste al entrenar un modelo de aprendizaje automático. [7] (Ver: aumento de datos )
Elimine aleatoriamente muestras de la clase mayoritaria, con o sin reemplazo. Esta es una de las primeras técnicas utilizadas para aliviar el desequilibrio en el conjunto de datos; sin embargo, puede aumentar la varianza del clasificador y es muy probable que descarte muestras útiles o importantes. [5]
Centroides de grupo es un método que reemplaza el grupo de muestras por el centroide de grupo de un algoritmo de K-medias, donde el número de grupos se establece por el nivel de submuestreo.
Los enlaces Tomek eliminan la superposición no deseada entre clases donde los enlaces de clase mayoritaria se eliminan hasta que todos los pares de vecinos más cercanos mínimamente distanciados sean de la misma clase. Un enlace Tomek se define de la siguiente manera: dado un par de instancias , donde y es la distancia entre y , entonces el par se llama enlace Tomek si no hay una instancia tal que o . De esta manera, si dos instancias forman un enlace Tomek, una de estas instancias es ruido o ambas están cerca de un borde. Por lo tanto, se pueden usar enlaces de Tomek para limpiar la superposición entre clases. Al eliminar los ejemplos superpuestos, se pueden establecer grupos bien definidos en el conjunto de entrenamiento y conducir a un mejor rendimiento de clasificación.
Submuestreo con aprendizaje conjunto
Un estudio reciente muestra que la combinación de submuestreo con aprendizaje en conjunto puede lograr mejores resultados, consulte IFME: filtrado de información por múltiples ejemplos con submuestreo en un entorno de biblioteca digital. [8]
Es posible combinar técnicas de sobremuestreo y submuestreo en una estrategia híbrida. Los ejemplos comunes incluyen enlaces SMOTE y Tomek o SMOTE y Vecinos más cercanos editados (ENN). Las formas adicionales de aprender sobre conjuntos de datos desequilibrados incluyen instancias de entrenamiento de ponderación, introduciendo diferentes costos de clasificación errónea para ejemplos positivos y negativos y bootstrapping. [9]