En inteligencia empresarial , la clasificación de datos tiene vínculos estrechos con la agrupación de datos , pero cuando la agrupación de datos es descriptiva , la clasificación de datos es predictiva . [1] [2] En esencia, la clasificación de datos consiste en utilizar variables con valores conocidos para predecir los valores desconocidos o futuros de otras variables. Se puede utilizar, por ejemplo , en marketing directo , detección de fraudes de seguros o diagnóstico médico . [2]
El primer paso para realizar una clasificación de datos es agrupar el conjunto de datos utilizado para el entrenamiento de categorías, para crear el número deseado de categorías. Luego se usa un algoritmo , llamado clasificador , en las categorías, creando un modelo descriptivo para cada una. Estos modelos se pueden utilizar para categorizar nuevos elementos en el sistema de clasificación creado. [1]
Eficacia
Según Golfarelli y Rizzi, estas son las medidas de efectividad del clasificador: [1]
- Precisión predictiva : ¿Qué tan bien predice las categorías para nuevas observaciones?
- Velocidad : ¿Cuál es el costo computacional de usar el clasificador?
- Solidez : ¿Qué tan bien funcionan los modelos creados si la calidad de los datos es baja?
- Escalabilidad : ¿El clasificador funciona de manera eficiente con grandes cantidades de datos?
- Interpretabilidad : ¿Los resultados son comprensibles para los usuarios?
Los ejemplos típicos de entrada para la clasificación de datos podrían ser variables como datos demográficos , información sobre el estilo de vida o comportamiento económico.
Desafíos
Existen varios desafíos al trabajar con la clasificación de datos. Uno en particular es que es necesario que todos los usuarios de categorías, por ejemplo, clientes o clientes, realicen el modelado en un proceso iterativo. Esto es para asegurar que el cambio en las características de los grupos de clientes no pase desapercibido, dejando obsoletas y obsoletas las categorías existentes, sin que nadie se dé cuenta.
Esto podría ser de especial importancia para las compañías de seguros o bancarias , donde la detección de fraudes es extremadamente relevante. Los nuevos patrones de fraude pueden pasar desapercibidos si no se desarrollan e implementan los métodos para vigilar estos cambios y alertar cuando las categorías están cambiando, desapareciendo o surgen otras nuevas.