Discretización de funciones continuas

En estadística y aprendizaje automático , la discretización se refiere al proceso de convertir o dividir atributos , características o variables continuas en atributos / características / variables / intervalos discretizados o nominales . Esto puede ser útil al crear funciones de masa de probabilidad, formalmente, en la estimación de densidad . Es una forma de discretización en general y también de agrupamiento , como al hacer un histograma . Siempre que se discretizan datos continuos , siempre hay una cierta cantidad de error de discretización . El objetivo es reducir la cantidad a un nivel considerado insignificante para los propósitos de modelado en cuestión.

Normalmente, los datos se discretizan en particiones de K longitudes / anchuras iguales (intervalos iguales) o K% de los datos totales (frecuencias iguales). ^[1]

Los mecanismos para discretizar datos continuos incluyen el método MDL de Fayyad & Irani, ^[2] que utiliza información mutua para definir de forma recursiva los mejores bins, CAIM, CACC, Ameva y muchos otros ^[3]

Se sabe que muchos algoritmos de aprendizaje automático producen mejores modelos mediante la discretización de atributos continuos. ^[4]

Software

Esta es una lista parcial de software que implementa el algoritmo MDL.

herramienta discretize4crf diseñada para trabajar con implementaciones populares de CRF ( C ++ )
mdlp en la discretización del paquete R
Discretizar en el paquete R RWeka

Ver también

Referencias

^ Clarke, EJ; Barton, BA (2000). "Entropía y discretización MDL de variables continuas para redes de creencias bayesianas" (PDF) . Revista Internacional de Sistemas Inteligentes . 15 : 61–92. doi : 10.1002 / (SICI) 1098-111X (200001) 15: 1 <61 :: AID-INT4> 3.0.CO; 2-O . Consultado el 10 de julio de 2008 .
^ Fayyad, Usama M .; Irani, Keki B. (1993) "Discretización de múltiples intervalos de atributos de valor continuo para el aprendizaje de clasificación" (PDF) . hdl : 2014/35171 ., Proc. 13 ° Int. Conf. Conjunta sobre Inteligencia Artificial (Q334 .I571 1993), págs. 1022-1027
^ Dougherty, J .; Kohavi, R.; Sahami, M. (1995). " Discretización supervisada y no supervisada de funciones continuas ". En A. Prieditis y SJ Russell, eds. Trabajar . Morgan Kaufmann, págs. 194-202
^ Kotsiantis, S .; Kanellopoulos, D (2006). "Técnicas de discretización: una encuesta reciente". GESTS Transacciones Internacionales en Informática e Ingeniería . 32 (1): 47–58. CiteSeerX 10.1.1.109.3084 .

Este artículo relacionado con las estadísticas es un resumen . Puedes ayudar a Wikipedia expandiéndolo .

[clarke-1] Clarke, EJ; Barton, BA (2000). "Entropía y discretización MDL de variables continuas para redes de creencias bayesianas" (PDF) . Revista Internacional de Sistemas Inteligentes . 15 : 61–92. doi : 10.1002 / (SICI) 1098-111X (200001) 15: 1 <61 :: AID-INT4> 3.0.CO; 2-O . Consultado el 10 de julio de 2008 .

[2] Fayyad, Usama M .; Irani, Keki B. (1993) "Discretización de múltiples intervalos de atributos de valor continuo para el aprendizaje de clasificación" (PDF) . hdl : 2014/35171 ., Proc. 13 ° Int. Conf. Conjunta sobre Inteligencia Artificial (Q334 .I571 1993), págs. 1022-1027

[3] Dougherty, J .; Kohavi, R.; Sahami, M. (1995). " Discretización supervisada y no supervisada de funciones continuas ". En A. Prieditis y SJ Russell, eds. Trabajar . Morgan Kaufmann, págs. 194-202

[4] Kotsiantis, S .; Kanellopoulos, D (2006). "Técnicas de discretización: una encuesta reciente". GESTS Transacciones Internacionales en Informática e Ingeniería . 32 (1): 47–58. CiteSeerX 10.1.1.109.3084 .

[1]