El Predictive Model Markup Language ( PMML ) es un formato de intercambio de modelos predictivos basado en XML concebido por el Dr. Robert Lee Grossman , entonces director del Centro Nacional de Minería de Datos de la Universidad de Illinois en Chicago . PMML proporciona una forma para que las aplicaciones analíticas describan e intercambien modelos predictivos producidos por algoritmos de minería de datos y aprendizaje automático . Admite modelos comunes como la regresión logística y otras redes neuronales de retroalimentación . La versión 0.9 se publicó en 1998. [1]Las versiones posteriores han sido desarrolladas por Data Mining Group. [2]
Dado que PMML es un estándar basado en XML, la especificación se presenta en forma de esquema XML . PMML en sí es un estándar maduro con más de 30 organizaciones que han anunciado productos compatibles con PMML. [3]
Componentes PMML
Un archivo PMML puede describirse mediante los siguientes componentes: [4] [5]
- Encabezado : contiene información general sobre el documento PMML, como la información de copyright del modelo, su descripción e información sobre la aplicación utilizada para generar el modelo, como el nombre y la versión. También contiene un atributo para una marca de tiempo que se puede usar para especificar la fecha de creación del modelo.
- Diccionario de datos : contiene definiciones para todos los campos posibles utilizados por el modelo. Es aquí donde un campo se define como continuo, categórico u ordinal (atributo optype). Dependiendo de esta definición, se definen los rangos de valores apropiados, así como el tipo de datos (como cadena o doble).
- Transformaciones de datos : las transformaciones permiten el mapeo de los datos del usuario en una forma más deseable para ser utilizada por el modelo de minería. PMML define varios tipos de transformaciones de datos simples.
- Normalización: mapear valores a números, la entrada puede ser continua o discreta.
- Discretización: asigne valores continuos a valores discretos.
- Mapeo de valores: mapee valores discretos a valores discretos.
- Funciones (personalizadas e integradas): deriva un valor aplicando una función a uno o más parámetros.
- Agregación: se utiliza para resumir o recopilar grupos de valores.
- Modelo : contiene la definición del modelo de minería de datos. Por ejemplo, una red neuronal de alimentación de varias capasestá representada en PMML por un elemento "NeuralNetwork" que contiene atributos como:
- Nombre del modelo (atributo modelName)
- Nombre de función (atributo functionName)
- Nombre de algoritmo (atributo nombre de algoritmo)
- Función de activación (función de activación de atributo)
- Número de capas (atributo numberOfLayers)
- Luego, esta información es seguida por tres tipos de capas neuronales que especifican la arquitectura del modelo de red neuronal que se representa en el documento PMML. Estos atributos son NeuralInputs, NeuralLayer y NeuralOutputs. Además de las redes neuronales, PMML permite la representación de muchos otros tipos de modelos, incluidas máquinas de vectores de soporte , reglas de asociación , clasificador Naive Bayes , modelos de agrupamiento, modelos de texto , árboles de decisión y diferentes modelos de regresión .
- Esquema de minería : una lista de todos los campos utilizados en el modelo. Puede ser un subconjunto de los campos definidos en el diccionario de datos. Contiene información específica sobre cada campo, como:
- Nombre (nombre de atributo): debe hacer referencia a un campo en el diccionario de datos
- Tipo de uso (atributo tipo de uso): define la forma en que se utilizará un campo en el modelo. Los valores típicos son: activo, previsto y suplementario. Los campos predichos son aquellos cuyos valores predice el modelo.
- Tratamiento de valores atípicos (atributos atípicos): define el tratamiento de valores atípicos que se utilizará. En PMML, los valores atípicos se pueden tratar como valores perdidos, como valores extremos (según la definición de valores altos y bajos para un campo en particular) o como están.
- Política de reemplazo de valor faltante (atributo missingValueReplacement): si se especifica este atributo, el valor faltante se reemplaza automáticamente por los valores dados.
- Tratamiento de valor perdido (atributo missingValueTreatment): indica cómo se obtuvo la sustitución del valor perdido (por ejemplo, como valor, media o mediana).
- Objetivos : permite el posprocesamiento del valor predicho en el formato de escalado si la salida del modelo es continua. Los objetivos también se pueden utilizar para tareas de clasificación. En este caso, el atributo priorProbability especifica una probabilidad predeterminada para la categoría objetivo correspondiente. Se utiliza si la propia lógica de predicción no produjo un resultado. Esto puede suceder, por ejemplo, si falta un valor de entrada y no hay otro método para tratar los valores perdidos.
- Salida : este elemento se puede utilizar para nombrar todos los campos de salida deseados que se esperan del modelo. Estas son características del campo predicho y, por lo tanto, suelen ser el valor predicho en sí mismo, la probabilidad, la afinidad del clúster (para modelos de clúster), el error estándar, etc. La última versión de PMML, PMML 4.1, salida extendida para permitir el posprocesamiento genérico de los resultados del modelo. En PMML 4.1, todas las funciones integradas y personalizadas que originalmente estaban disponibles solo para preprocesamiento también se volvieron disponibles para posprocesamiento.
PMML 4.0, 4.1, 4.2 y 4.3
PMML 4.0 fue lanzado el 16 de junio de 2009. [6] [7] [8]
Entre los ejemplos de nuevas funciones se incluyen:
- Capacidades de preprocesamiento mejoradas: las adiciones a las funciones integradas incluyen una variedad de operaciones booleanas y una función If-Then-Else .
- Modelos de series de tiempo : nuevos modelos de suavizado exponencial ; también colocan marcadores para ARIMA , Descomposición de tendencias estacionales y Estimación de densidad espectral , que se admitirán en un futuro próximo.
- Explicación del modelo: Guardar las medidas de rendimiento de la evaluación y del modelo en el propio archivo PMML.
- Modelos múltiples: capacidades para la composición de modelos, conjuntos y segmentación (por ejemplo, combinación de árboles de regresión y decisión).
- Extensiones de elementos existentes: adición de clasificación de clases múltiples para máquinas de vectores de soporte , representación mejorada para reglas de asociación y adición de modelos de regresión de Cox .
PMML 4.1 fue lanzado el 31 de diciembre de 2011. [9] [10]
Nuevas funciones incluidas:
- Nuevos elementos de modelo para representar cuadros de mando, k-vecinos más cercanos ( KNN ) y modelos de línea de base.
- Simplificación de múltiples modelos. En PMML 4.1, el mismo elemento se usa para representar la segmentación, el conjunto y el encadenamiento del modelo.
- Definición general de ámbito de campo y nombres de campo.
- Un nuevo atributo que identifica para cada elemento del modelo si el modelo está listo o no para la implementación de producción.
- Capacidades de posprocesamiento mejoradas (a través del elemento Salida).
PMML 4.2 fue lanzado el 28 de febrero de 2014. [11] [12]
Entre las nuevas funciones se incluyen:
- Transformaciones: nuevos elementos para implementar la minería de texto
- Nuevas funciones integradas para implementar expresiones regulares: coincidencias, concat y reemplazar
- Salidas simplificadas para posprocesamiento
- Mejoras en los elementos del modelo Scorecard y Naive Bayes
PMML 4.3 fue lanzado el 23 de agosto de 2016. [13] [14]
Entre las nuevas funciones se incluyen:
- Nuevos tipos de modelos:
- Proceso gaussiano
- Red Bayesiana
- Nuevas funciones integradas
- Aclaraciones de uso
- Mejoras en la documentación
Historial de versiones
Versión | Fecha de lanzamiento |
---|---|
Versión 0.7 | Julio de 1997 |
Versión 0.9 | Julio de 1998 |
Versión 1.0 | Agosto de 1999 |
Versión 1.1 | Agosto de 2000 |
Versión 2.0 | Agosto de 2001 |
Versión 2.1 | Marzo de 2003 |
Versión 3.0 | Octubre de 2004 |
Versión 3.1 | Diciembre de 2005 |
Versión 3.2 | Mayo de 2007 |
Versión 4.0 | Junio de 2009 |
Versión 4.1 | Diciembre de 2011 |
Versión 4.2 | Febrero 2014 |
Versión 4.2.1 | Marzo de 2015 |
Versión 4.3 | Agosto de 2016 |
Grupo de minería de datos
El Data Mining Group es un consorcio administrado por el Center for Computational Science Research, Inc., una organización sin fines de lucro fundada en 2008. [15] El Data Mining Group también desarrolló un estándar llamado Portable Format for Analytics , o PFA, que es complementario a PMML. .
Ver también
- Intercambio de redes neuronales abiertas
Referencias
- ^ "La gestión y minería de múltiples modelos predictivos utilizando el lenguaje de marcado de modelado predictivo" . ResearchGate . doi : 10.1016 / S0950-5849 (99) 00022-1 . Consultado el 21 de diciembre de 2015 .
- ^ "Grupo de minería de datos" . Consultado el 14 de diciembre de 2017 .
El DMG se enorgullece de albergar los grupos de trabajo que desarrollan el Predictive Model Markup Language (PMML) y el Portable Format for Analytics (PFA) , dos estándares complementarios que simplifican la implementación de modelos analíticos.
- ^ "PMML Powered" . Grupo de minería de datos . Consultado el 14 de diciembre de 2017 .
- ^ A. Guazzelli, M. Zeller, W. Chen y G. Williams. PMML: un estándar abierto para compartir modelos . The R Journal , volumen 1/1, mayo de 2009.
- ^ A. Guazzelli, W. Lin, T. Jena (2010). PMML en acción (segunda edición): Liberando el poder de los estándares abiertos para la minería de datos y el análisis predictivo . CreateSpace.
- ^ Sitio web de Data Mining Group | PMML 4.0 - Cambios de PMML 3.2 Archivado el 28 de julio de 2012 en archive.today
- ^ "¡El sitio web de Zementis | PMML 4.0 ya está aquí!" . Archivado desde el original el 3 de octubre de 2011 . Consultado el 17 de junio de 2009 .
- ^ R. Pechter. ¿Qué es PMML y qué hay de nuevo en PMML 4.0? El Boletín de Exploraciones de ACM SIGKDD , Volumen 11/1, julio de 2009.
- ^ Sitio web de Data Mining Group | PMML 4.1 - Cambios desde PMML 4.0
- ^ Sitio web de información de Predictive Analytics | ¡PMML 4.1 ya está aquí!
- ^ Sitio web de Data Mining Group | PMML 4.2 - Cambios desde PMML 4.1 Archivado el 20 de mayo de 2014 en archive.today
- ^ Sitio web de información de Predictive Analytics | ¡PMML 4.2 ya está aquí!
- ^ Sitio web de Data Mining Group | PMML 4.3 - Cambios de PMML 4.2.1
- ^ Sitio web del producto Predictive Model Markup Language | Actividad de proyecto
- ^ "2008 EO 990" . Consultado el 16 de octubre de 2014 .
enlaces externos
- Preprocesamiento de datos en PMML y ADAPA: una introducción
- Video de la presentación PMML del Dr. Alex Guazzelli para ACM Data Mining Group (alojado por LinkedIn)
- Especificación PMML 3.2
- Especificación PMML 4.0
- Especificación PMML 4.1
- PMML 4.2.1 Especificación
- Especificación PMML 4.3
- Representar soluciones predictivas en PMML: pasar de los datos sin procesar a las predicciones : artículo publicado en el sitio web de IBM developerWorks.
- Análisis predictivo en el cuidado de la salud: la importancia de los estándares abiertos : artículo publicado en el sitio web de IBM developerWorks.