En estadística y aprendizaje automático , la discretización se refiere al proceso de convertir o dividir atributos , características o variables continuas en atributos / características / variables / intervalos discretizados o nominales . Esto puede ser útil al crear funciones de masa de probabilidad, formalmente, en la estimación de densidad . Es una forma de discretización en general y también de agrupamiento , como al hacer un histograma . Siempre que se discretizan datos continuos , siempre hay una cierta cantidad de error de discretización. El objetivo es reducir la cantidad a un nivel considerado insignificante para los propósitos de modelado en cuestión.
Normalmente, los datos se discretizan en particiones de K longitudes / anchuras iguales (intervalos iguales) o K% de los datos totales (frecuencias iguales). [1]
Los mecanismos para discretizar datos continuos incluyen el método MDL de Fayyad & Irani, [2] que utiliza información mutua para definir de forma recursiva los mejores bins, CAIM, CACC, Ameva y muchos otros [3]
Se sabe que muchos algoritmos de aprendizaje automático producen mejores modelos mediante la discretización de atributos continuos. [4]
Software
Esta es una lista parcial de software que implementa el algoritmo MDL.
- herramienta discretize4crf diseñada para trabajar con implementaciones populares de CRF ( C ++ )
- mdlp en la discretización del paquete R
- Discretizar en el paquete R RWeka
Ver también
Referencias
- ^ Clarke, EJ; Barton, BA (2000). "Entropía y discretización MDL de variables continuas para redes de creencias bayesianas" (PDF) . Revista Internacional de Sistemas Inteligentes . 15 : 61–92. doi : 10.1002 / (SICI) 1098-111X (200001) 15: 1 <61 :: AID-INT4> 3.0.CO; 2-O . Consultado el 10 de julio de 2008 .
- ^ Fayyad, Usama M .; Irani, Keki B. (1993) "Discretización de múltiples intervalos de atributos de valor continuo para el aprendizaje de clasificación" (PDF) . hdl : 2014/35171 ., Proc. 13 ° Int. Conf. Conjunta sobre Inteligencia Artificial (Q334 .I571 1993), págs. 1022-1027
- ^ Dougherty, J .; Kohavi, R.; Sahami, M. (1995). " Discretización supervisada y no supervisada de funciones continuas ". En A. Prieditis y SJ Russell, eds. Trabajar . Morgan Kaufmann, págs. 194-202
- ^ Kotsiantis, S .; Kanellopoulos, D (2006). "Técnicas de discretización: una encuesta reciente". GESTS Transacciones Internacionales en Informática e Ingeniería . 32 (1): 47–58. CiteSeerX 10.1.1.109.3084 .