La selección de instancias (o la reducción del conjunto de datos o la condensación del conjunto de datos) es un paso importante de preprocesamiento de datos que se puede aplicar en muchas tareas de aprendizaje automático (o minería de datos ). [1] Se pueden aplicar enfoques, por ejemplo, la selección para reducir el conjunto de datos original a un volumen manejable, lo que lleva a una reducción de los recursos computacionales que son necesarios para realizar el proceso de aprendizaje. También se pueden aplicar algoritmos de selección de instancias para eliminar instancias ruidosas, antes de aplicar algoritmos de aprendizaje. Este paso puede mejorar la precisión en los problemas de clasificación.
El algoritmo, por ejemplo, la selección debe identificar un subconjunto de los datos totales disponibles para lograr el propósito original de la aplicación de minería de datos (o aprendizaje automático) como si se hubieran utilizado todos los datos. Teniendo esto en cuenta, el resultado óptimo de IS sería el subconjunto mínimo de datos que puede realizar la misma tarea sin pérdida de rendimiento, en comparación con el rendimiento logrado cuando la tarea se realiza utilizando todos los datos disponibles. Por lo tanto, cada estrategia de selección de instancias debe abordar un compromiso entre la tasa de reducción del conjunto de datos y la calidad de la clasificación.
Algoritmos de selección de instancias
La literatura proporciona varios algoritmos diferentes para la selección de ejemplos. Se pueden distinguir entre sí según varios criterios diferentes. Teniendo esto en cuenta, los algoritmos de selección de instancias se pueden agrupar en dos clases principales, según las instancias que seleccionen: algoritmos que preservan las instancias en los límites de las clases y algoritmos que preservan las instancias internas de las clases. Dentro de la categoría de algoritmos que seleccionan instancias en los límites, es posible citar DROP3, [2] ICF [3] y LSBo. [4] Por otro lado, dentro de la categoría de algoritmos que seleccionan instancias internas, es posible mencionar ENN [5] y LSSm. [4] En general, se utilizan algoritmos como ENN y LSSm para eliminar instancias dañinas (ruidosas) del conjunto de datos. No reducen los datos como algoritmos que seleccionan instancias de borde, pero eliminan instancias en los límites que tienen un impacto negativo en la tarea de minería de datos. Pueden ser utilizados por otros algoritmos de selección de instancias, como un paso de filtrado. Por ejemplo, DROP3 utiliza el algoritmo ENN como primer paso y LSBo utiliza el algoritmo LSSm.
También hay otro grupo de algoritmos que adoptan diferentes criterios de selección. Por ejemplo, los algoritmos LDIS, [6] CDIS [7] y XLDIS [8] seleccionan las instancias más densas en una vecindad arbitraria dada. Las instancias seleccionadas pueden incluir instancias fronterizas e internas. Los algoritmos LDIS y CDIS son muy simples y seleccionan subconjuntos que son muy representativos del conjunto de datos original. Además de eso, dado que buscan por las instancias representativas en cada clase por separado, son más rápidos (en términos de complejidad de tiempo y tiempo de ejecución efectivo) que otros algoritmos, como DROP3 e ICF.
Además de eso, hay una tercera categoría de algoritmos que, en lugar de seleccionar instancias reales del conjunto de datos, seleccionan prototipos (que pueden ser instancias sintéticas). En esta categoría es posible incluir PSSA, [9] PSDSP [10] y PSSP. [11] Los tres algoritmos adoptan la noción de partición espacial (un hiperrectángulo) para identificar instancias similares y extraer prototipos para cada conjunto de instancias similares. En general, estos enfoques también se pueden modificar para seleccionar instancias reales de los conjuntos de datos. El algoritmo ISDSP [11] adopta un enfoque similar para seleccionar instancias reales (en lugar de prototipos).
Referencias
- ^ S. García, J. Luengo y F. Herrera, Preprocesamiento de datos en minería de datos. Springer, 2015.
- ^ DR Wilson y TR Martinez, Técnicas de reducción para algoritmos de aprendizaje basados en instancias, Aprendizaje automático, vol. 38, no. 3, págs. 257-286, 2000.
- ^ H. Brighton y C. Mellish, Avances en la selección de instancias para algoritmos de aprendizaje basados en instancias, Minería de datos y descubrimiento de conocimientos, vol. 6, no. 2, págs. 153-172, 2002.
- ^ a b E. Leyva, A. González y R. Pérez, Tres nuevos métodos de selección de instancias basados en conjuntos locales: un estudio comparativo con varios enfoques desde una perspectiva biobjetivo, Pattern Recognition, vol. 48, no. 4, págs. 1523-1537, 2015.
- ^ DL Wilson, "Propiedades asintóticas de las reglas del vecino más cercano usando datos editados", Sistemas, Hombre y Cibernética, Transacciones IEEE en, no. 3, págs. 408–421, 1972.
- ^ Carbonera, Joel Luis y Mara Abel. Un enfoque basado en la densidad para la selección de instancias. IEEE 27th International Conference on Tools with Artificial Intelligence (ICTAI), 2015.
- ^ Carbonera, Joel Luis y Mara Abel. Un enfoque novedoso basado en la densidad para la selección de ejemplos. IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI), 2016.
- ^ Carbonera, Joel Luís (2017), "Un enfoque eficiente para la selección de instancias", Big Data Analytics and Knowledge Discovery , Lecture Notes in Computer Science, 10440 , Springer International Publishing, págs. 228–243, doi : 10.1007 / 978-3 -319-64283-3_17 , ISBN 9783319642826
- ^ Carbonera, Joel Luís; Abel, Mara (2018), "An Efficient Prototype Selection Algorithm Based on Spatial Abstraction", Big Data Analytics and Knowledge Discovery , Springer International Publishing, págs. 177-192, doi : 10.1007 / 978-3-319-98539-8_14 , ISBN 9783319985381
- ^ Carbonera, Joel Luís; Abel, Mara (2018), "Un algoritmo de selección de prototipos eficiente basado en particiones espaciales densas", Inteligencia artificial y Soft Computing , Springer International Publishing, págs. 288–300, doi : 10.1007 / 978-3-319-91262-2_26 , ISBN 9783319912615
- ^ a b Carbonera, Joel Luis; Abel, Mara (noviembre de 2017). Selección eficiente de prototipos respaldada por particiones subespaciales . 2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI) . IEEE. doi : 10.1109 / ictai.2017.00142 . ISBN 9781538638767.