Proceso estándar entre industrias para la minería de datos


De Wikipedia, la enciclopedia libre
  (Redirigido desde CRISP-DM )
Saltar a navegación Saltar a búsqueda

El proceso estándar entre industrias para la minería de datos , conocido como CRISP-DM , [1] es un modelo de proceso estándar abierto que describe los enfoques comunes utilizados por los expertos en minería de datos . Es el modelo de análisis más utilizado . [2]

En 2015, IBM lanzó una nueva metodología llamada Método unificado de soluciones analíticas para minería de datos / análisis predictivo [3] [4] (también conocido como ASUM-DM) que refina y amplía CRISP-DM.

Historia

CRISP-DM fue concebido en 1996 y se convirtió en un proyecto de la Unión Europea bajo la iniciativa de financiación ESPRIT en 1997. El proyecto fue dirigido por cinco empresas: Integral Solutions Ltd (ISL) , Teradata , Daimler AG , NCR Corporation y OHRA , una compañía de seguros.

Este consorcio central aportó diferentes experiencias al proyecto: ISL, luego adquirido y fusionado en SPSS. El gigante informático NCR Corporation produjo el almacén de datos Teradata y su propio software de minería de datos. Daimler-Benz tenía un importante equipo de minería de datos. OHRA estaba comenzando a explorar el uso potencial de la minería de datos.

La primera versión de la metodología se presentó en el 4º Taller CRISP-DM SIG en Bruselas en marzo de 1999, [5] y se publicó como una guía paso a paso de extracción de datos más tarde ese año. [6]

Entre 2006 y 2008 se formó un CRISP-DM 2.0 SIG y hubo discusiones sobre la actualización del modelo de proceso CRISP-DM. [7] Se desconoce el estado actual de estos esfuerzos. Sin embargo, el sitio web original crisp-dm.org citado en las revisiones, [8] [9] y el sitio web CRISP-DM 2.0 SIG [7] ya no están activos.

Mientras que muchos practicantes de minería de datos que no son de IBM usan CRISP-DM, [10] [11] [12] IBM es la corporación principal que actualmente usa el modelo de proceso CRISP-DM. Hace que algunos de los documentos CRISP-DM antiguos estén disponibles para su descarga [6] y los ha incorporado a su producto SPSS Modeler .

Basado en la investigación actual, CRISP-DM es la forma más utilizada de modelo de minería de datos debido a sus diversas ventajas que resolvieron los problemas existentes en las industrias de minería de datos. Algunos de los inconvenientes de este modelo es que no realiza actividades de gestión de proyectos. El hecho detrás del éxito de CRISP-DM es que es neutral en la industria, las herramientas y las aplicaciones. [13]

Fases principales

Diagrama de proceso que muestra la relación entre las diferentes fases de CRISP-DM

CRISP-DM divide el proceso de minería de datos en seis fases principales: [14]

  • Comprensión empresarial
  • Comprensión de datos
  • Preparación de datos
  • Modelado
  • Evaluación
  • Despliegue

La secuencia de las fases no es estricta y avanza y retrocede entre las diferentes fases, ya que siempre es necesario. Las flechas en el diagrama de proceso indican las dependencias más importantes y frecuentes entre las fases. El círculo exterior del diagrama simboliza la naturaleza cíclica de la propia minería de datos. Un proceso de minería de datos continúa después de que se ha implementado una solución. Las lecciones aprendidas durante el proceso pueden desencadenar nuevas preguntas comerciales, a menudo más centradas, y los procesos de minería de datos posteriores se beneficiarán de las experiencias de los anteriores.

Centro

Las encuestas realizadas en el mismo sitio web (KDNuggets) en 2002, 2004, 2007 y 2014 muestran que fue la metodología líder utilizada por los mineros de datos de la industria que decidieron responder a la encuesta. [10] [11] [12] [15] El único otro enfoque de minería de datos mencionado en estas encuestas fue SEMMA . Sin embargo, SAS Institute establece claramente que SEMMA no es una metodología de minería de datos, sino más bien una "organización lógica del conjunto de herramientas funcionales de SAS Enterprise Miner". Una revisión y crítica de los modelos de procesos de minería de datos en 2009 llamó al CRISP-DM el "estándar de facto para desarrollar proyectos de minería de datos y descubrimiento de conocimiento". [16] Otras revisiones de CRISP-DM y modelos de procesos de minería de datos incluyen la revisión de 2006 de Kurgan y Musilek, [8]y la comparación de 2008 de Azevedo y Santos de CRISP-DM y SEMMA. [9] Los esfuerzos para actualizar la metodología comenzaron en 2006, pero, a junio de 2015, no han dado lugar a una nueva versión, y el "Grupo de Interés Especial" (SIG) responsable junto con el sitio web ha desaparecido hace tiempo (ver Historia de CRISP -DM ).

Referencias

  1. ^ Shearer C., El modelo CRISP-DM: el nuevo plan para la minería de datos , J Data Warehousing (2000); 5: 13-22.
  2. ^ Lo que necesita saber sobre el proceso de minería de datos Publicado por Forbes, 29 de julio de 2015, consultado el 24 de junio de 2018
  3. ^ ¿Has visto ASUM-DM? , Por Jason Haffar, 16 de octubre de 2015, SPSS Predictive Analytics, IBM Archivado el 8 de marzo de 2016 en Wayback Machine.
  4. ^ Método unificado de soluciones analíticas: implementaciones con principios ágiles Publicado por IBM, 1 de marzo de 2016, consultado el 5 de octubre de 2018
  5. ^ Pete Chapman (1999); La Guía del usuario de CRISP-DM .
  6. ↑ a b Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer y Rüdiger Wirth (2000); La Guía del usuario de CRISP-DM ( entrada sobre semántica académica, incluidos enlaces a PDF ), ( versión PDF con gráficos de alta resolución ).
  7. ↑ a b Colin Shearer (2006); Realización del primer taller CRISP-DM 2.0
  8. ↑ a b Lukasz Kurgan y Petr Musilek (2006); Una encuesta de modelos de proceso de descubrimiento de conocimiento y minería de datos . La revisión de la ingeniería del conocimiento. Volumen 21 Número 1, marzo de 2006, págs. 1–24, Cambridge University Press, Nueva York, NY, EE. UU. Doi: 10.1017 / S0269888906000737.
  9. ↑ a b Azevedo, A. y Santos, MF (2008); KDD, SEMMA y CRISP-DM: una visión paralela . En Actas de la Conferencia europea de IADIS sobre minería de datos 2008, págs. 182–185.
  10. ↑ a b Gregory Piatetsky-Shapiro (2002); Encuesta de metodología KDnuggets
  11. ↑ a b Gregory Piatetsky-Shapiro (2004); Encuesta de metodología KDnuggets
  12. ↑ a b Gregory Piatetsky-Shapiro (2007); Encuesta de metodología KDnuggets
  13. Mariscal, G., Marban, O., Fernandez, C. "Estudio de modelos y metodologías de procesos de descubrimiento de conocimiento y minería de datos". La revisión de la ingeniería del conocimiento. doi : 10.1017 / S0269888910000032 .CS1 maint: varios nombres: lista de autores ( enlace )
  14. ^ Harper, Gavin; Stephen D. Pickett (agosto de 2006). "Métodos para extraer datos HTS" . Descubrimiento de drogas hoy . 11 (15-16): 694-699. doi : 10.1016 / j.drudis.2006.06.006 . PMID 16846796 . 
  15. ^ Gregory Piatetsky-Shapiro (2014); Encuesta de metodología KDnuggets
  16. ^ Martínez-Plumed, Fernando; Contreras-Ochando, Lidia; Ferri, Cèsar; Flach, Peter; Hernández-Orallo, José; Kull, Meelis; Lachiche, Nicolás; Ramírez-Quintana, María José (19 de septiembre de 2017). "CASP-DM: proceso estándar sensible al contexto para la minería de datos". arXiv : 1709.09003 [ cs.DB ].
Obtenido de " https://en.wikipedia.org/w/index.php?title=Cross-industry_standard_process_for_data_mining&oldid=1055377187 "