Preprocesamiento de datos

El preprocesamiento de datos puede referirse a la manipulación o eliminación de datos antes de que se utilicen para garantizar o mejorar el rendimiento, ^[1] y es un paso importante en el proceso de extracción de datos . La frase "basura entra, basura sale" es particularmente aplicable a los proyectos de aprendizaje automático y minería de datos . Los métodos de recopilación de datos a menudo están poco controlados, lo que da como resultado valores fuera de rango (p. ej., Ingresos: −100), combinaciones de datos imposibles (p. ej., Sexo: Hombre, Embarazada: Sí) y valores faltantes , etc. Analizar datos que no ha sido examinado cuidadosamente para tales problemas puede producir resultados engañosos. Así, la representación y la calidad de los datos es lo primero y más importante antes de ejecutar cualquier análisis. ^[2] A menudo, el preprocesamiento de datos es la fase más importante de un proyecto de aprendizaje automático , especialmente en biología computacional . ^[3]

Si hay mucha información irrelevante y redundante presente o datos ruidosos y poco confiables, entonces el descubrimiento de conocimiento durante la fase de entrenamiento es más difícil. Los pasos de preparación y filtrado de datos pueden llevar una cantidad considerable de tiempo de procesamiento. Ejemplos de preprocesamiento de datos incluyen limpieza , selección de instancias , normalización , codificación en caliente , transformación , extracción y selección de características , etc. El producto del preprocesamiento de datos es el conjunto de entrenamiento final .

El preprocesamiento de datos puede afectar la forma en que se pueden interpretar los resultados del procesamiento final de datos. ^[4] Este aspecto debe ser cuidadosamente considerado cuando la interpretación de los resultados es un punto clave, como en el procesamiento multivariado de datos químicos ( quimiometría ).

En este ejemplo, tenemos 5 adultos en nuestro conjunto de datos que tienen el sexo masculino o femenino y si están embarazadas o no. Podemos detectar que Adulto 3 y 5 son combinaciones de datos imposibles.

Podemos realizar una limpieza de datos y optar por eliminar dichos datos de nuestra tabla. Eliminamos dichos datos porque podemos determinar que dichos datos existentes en el conjunto de datos se deben a errores de entrada del usuario o corrupción de datos. Una razón por la que uno podría tener que eliminar dichos datos es porque los datos imposibles afectarán el cálculo o el proceso de manipulación de datos en los pasos posteriores del proceso de extracción de datos.

Podemos realizar una edición de datos y cambiar el sexo del adulto al saber que el adulto está embarazada, podemos suponer que el adulto es femenino y hacer los cambios correspondientes. Editamos el conjunto de datos para tener un análisis más claro de los datos al realizar la manipulación de datos en los pasos posteriores dentro del proceso de minería de datos.