La minería de estructuras o la minería de datos estructurados es el proceso de encontrar y extraer información útil de conjuntos de datos semiestructurados . La minería de gráficos, la minería de patrones secuenciales y la minería de moléculas son casos especiales de minería de datos estructurados [ cita requerida ] .
Descripción
El crecimiento del uso de datos semiestructurados ha creado nuevas oportunidades para la minería de datos, que tradicionalmente se ha preocupado por conjuntos de datos tabulares, lo que refleja la fuerte asociación entre la minería de datos y las bases de datos relacionales . Gran parte de los datos interesantes y extraíbles del mundo no se pliegan fácilmente en bases de datos relacionales, aunque una generación de ingenieros de software ha sido capacitada para creer que esta era la única forma de manejar datos, y los algoritmos de minería de datos generalmente se han desarrollado solo para hacer frente a datos tabulares. .
XML , que es la forma más frecuente de representar datos semiestructurados, puede representar tanto datos tabulares como árboles arbitrarios. Cualquier representación particular de datos que se intercambiarán entre dos aplicaciones en XML normalmente se describe mediante un esquema que a menudo se escribe en XSD . Los ejemplos prácticos de tales esquemas, por ejemplo NewsML , son normalmente muy sofisticados y contienen múltiples subárboles opcionales, utilizados para representar datos de casos especiales. Con frecuencia, alrededor del 90% de un esquema está relacionado con la definición de estos elementos de datos opcionales y subárboles.
Por tanto, los mensajes y datos que se transmiten o codifican mediante XML y que se ajustan al mismo esquema pueden contener datos muy diferentes según lo que se esté transmitiendo.
Estos datos presentan grandes problemas para la minería de datos convencional. Dos mensajes que se ajustan al mismo esquema pueden tener pocos datos en común. Crear un conjunto de entrenamiento a partir de dichos datos significa que si se intentara formatearlo como datos tabulares para la minería de datos convencional, grandes secciones de las tablas estarían o podrían estar vacías.
Existe una suposición tácita en el diseño de la mayoría de los algoritmos de minería de datos de que los datos presentados estarán completos. La otra necesidad es que los algoritmos de minería reales empleados, ya sean supervisados o no supervisados, deben poder manejar datos escasos. Es decir, los algoritmos de aprendizaje automático funcionan mal con conjuntos de datos incompletos donde solo se proporciona una parte de la información. Por ejemplo, métodos basados en redes neuronales . [ Cita requerida ] o Ross Quinlan 's algoritmo ID3 . [ cita requerida ] son muy precisos con muestras buenas y representativas del problema, pero funcionan mal con datos sesgados. La mayoría de las veces es suficiente una mejor presentación del modelo con una representación más cuidadosa e imparcial de la entrada y la salida. Un área particularmente relevante donde encontrar la estructura y el modelo adecuados es la cuestión clave es la minería de texto .
XPath es el mecanismo estándar que se utiliza para hacer referencia a nodos y elementos de datos dentro de XML. Tiene similitudes con las técnicas estándar para navegar por las jerarquías de directorios utilizadas en las interfaces de usuario de los sistemas operativos. Para extraer datos y estructurar datos XML de cualquier forma, se requieren al menos dos extensiones para la minería de datos convencional. Se trata de la capacidad de asociar una declaración XPath con cualquier patrón de datos y sub declaraciones con cada nodo de datos en el patrón de datos, y la capacidad de extraer la presencia y el recuento de cualquier nodo o conjunto de nodos dentro del documento.
Como ejemplo, si uno fuera a representar un árbol genealógico en XML, utilizando estas extensiones, se podría crear un conjunto de datos que contenga todos los nodos individuales en el árbol, elementos de datos como el nombre y la edad al momento de la muerte, y recuentos de nodos relacionados, como como número de hijos. Las búsquedas más sofisticadas podrían extraer datos como la esperanza de vida de los abuelos, etc.
La adición de estos tipos de datos relacionados con la estructura de un documento o mensaje facilita la extracción de estructuras.
Ver también
Referencias
- Andrew N Edmonds, sobre datos estructurados de árboles de minería de datos en XML ', conferencia sobre minería de datos del Reino Unido, Universidad de Nottingham, agosto de 2003
- Gusfield, D., Algoritmos sobre cadenas, árboles y secuencias: Ciencias de la computación y biología computacional , Cambridge University Press, 1997 . ISBN 0-521-58519-8
- RO Duda, PE Hart, DG Stork, Clasificación de patrones , John Wiley & Sons, 2001 . ISBN 0-471-05669-3
- F. Hadzic, H. Tan, TS Dillon, Minería de datos con estructuras complejas, Springer, 2010 . ISBN 978-3-642-17556-5