Minería de estructuras

La minería de estructuras o la minería de datos estructurados es el proceso de encontrar y extraer información útil de conjuntos de datos semiestructurados . La minería de gráficos, la minería de patrones secuenciales y la minería de moléculas son casos especiales de minería de datos estructurados ^{[ cita requerida ]} .

El crecimiento del uso de datos semiestructurados ha creado nuevas oportunidades para la minería de datos, que tradicionalmente se ha preocupado por conjuntos de datos tabulares, lo que refleja la fuerte asociación entre la minería de datos y las bases de datos relacionales . Gran parte de los datos interesantes y extraíbles del mundo no se pliegan fácilmente en bases de datos relacionales, aunque una generación de ingenieros de software ha sido capacitada para creer que esta era la única forma de manejar datos, y los algoritmos de minería de datos generalmente se han desarrollado solo para hacer frente a datos tabulares. .

XML , al ser la forma más frecuente de representar datos semiestructurados, puede representar tanto datos tabulares como árboles arbitrarios. Cualquier representación particular de datos que se intercambiarán entre dos aplicaciones en XML normalmente se describe mediante un esquema que a menudo se escribe en XSD . Los ejemplos prácticos de tales esquemas, por ejemplo NewsML , son normalmente muy sofisticados y contienen múltiples subárboles opcionales, utilizados para representar datos de casos especiales. Con frecuencia, alrededor del 90% de un esquema está relacionado con la definición de estos elementos de datos opcionales y subárboles.

Por tanto, los mensajes y los datos que se transmiten o codifican mediante XML y que se ajustan al mismo esquema pueden contener datos muy diferentes según lo que se esté transmitiendo.

Estos datos presentan grandes problemas para la minería de datos convencional. Dos mensajes que se ajustan al mismo esquema pueden tener pocos datos en común. La construcción de un conjunto de entrenamiento a partir de dichos datos significa que si uno intentara formatearlo como datos tabulares para la minería de datos convencional, grandes secciones de las tablas estarían o podrían estar vacías.

Existe una suposición tácita en el diseño de la mayoría de los algoritmos de minería de datos de que los datos presentados estarán completos. La otra necesidad es que los algoritmos de minería reales empleados, ya sean supervisados o no, deben poder manejar datos escasos. Es decir, los algoritmos de aprendizaje automático funcionan mal con conjuntos de datos incompletos donde solo se proporciona una parte de la información. Por ejemplo, métodos basados en redes neuronales . ^{[ Cita requerida ]} o Ross Quinlan 's algoritmo ID3 . ^{[ cita requerida ]}son muy precisos con muestras buenas y representativas del problema, pero funcionan mal con datos sesgados. La mayoría de las veces es suficiente una mejor presentación del modelo con una representación más cuidadosa e imparcial de la entrada y la salida. Un área particularmente relevante en la que encontrar la estructura y el modelo adecuados es la cuestión clave es la minería de textos .