Los datos no estructurados (o información no estructurada ) son información que no tiene un modelo de datos predefinido o no está organizada de una manera predefinida. La información no estructurada suele contener mucho texto , pero también puede contener datos como fechas, números y hechos. Esto da como resultado irregularidades y ambigüedades que dificultan la comprensión del uso de programas tradicionales en comparación con los datos almacenados en forma de campo en bases de datos o anotados ( etiquetados semánticamente ) en documentos.
En 1998, Merrill Lynch dijo que "los datos no estructurados comprenden la gran mayoría de los datos que se encuentran en una organización, algunas estimaciones llegan al 80%". [1] No está claro cuál es la fuente de este número, pero, no obstante, algunos lo aceptan. [2] Otras fuentes han informado porcentajes similares o superiores de datos no estructurados. [3] [4] [5]
A partir de 2012 [actualizar], IDC y Dell EMC proyectan que los datos crecerán a 40 zettabytes para 2020, lo que resultará en un crecimiento de 50 veces desde principios de 2010. [6] Más recientemente, IDC y Seagate predicen que la esfera de datos global crecerá a 163 zettabytes para 2025 [7] y la mayoría de ellos no estarán estructurados. La revista Computer World afirma que la información no estructurada puede representar más del 70% al 80% de todos los datos en las organizaciones. [1]
Fondo
La investigación más temprana sobre inteligencia empresarial se centró en datos textuales no estructurados, en lugar de datos numéricos. [8] Ya en 1958, los investigadores de ciencias de la computación como HP Luhn estaban particularmente preocupados por la extracción y clasificación de texto no estructurado. [8] Sin embargo, solo desde el cambio de siglo la tecnología se ha puesto al día con el interés de la investigación. En 2004, el SAS Institute desarrolló el texto SAS Miner, que utiliza descomposición en valores singulares (SVD) para reducir una hiper-dimensional Pruebas espacio en dimensiones más pequeñas para la máquina-análisis significativamente más eficiente. [9] Los avances matemáticos y tecnológicos provocados por el análisis textual de la máquina llevaron a varias empresas a investigar aplicaciones, lo que llevó al desarrollo de campos como el análisis de sentimientos , la extracción de voz del cliente y la optimización del centro de llamadas. [10] La aparición de Big Data a finales de la década de 2000 llevó a un mayor interés en las aplicaciones de análisis de datos no estructurados en campos contemporáneos como el análisis predictivo y el análisis de la causa raíz . [11]
Problemas con la terminología
El término es impreciso por varias razones:
- La estructura , aunque no está definida formalmente, todavía puede estar implícita.
- Los datos con alguna forma de estructura aún pueden caracterizarse como no estructurados si su estructura no es útil para la tarea de procesamiento en cuestión.
- La información no estructurada puede tener alguna estructura ( semiestructurada ) o incluso estar muy estructurada, pero de formas imprevistas o no anunciadas.
Tratar con datos no estructurados
Técnicas como la minería de datos , el procesamiento del lenguaje natural (PNL) y el análisis de texto proporcionan diferentes métodos para encontrar patrones en esta información o interpretarla de otro modo. Las técnicas comunes para estructurar texto generalmente implican el etiquetado manual con metadatos o el etiquetado de parte del discurso para una estructuración adicional basada en la minería de texto . El estándar de Arquitectura de gestión de información no estructurada (UIMA) proporcionó un marco común para procesar esta información a fin de extraer significado y crear datos estructurados sobre la información. [12]
El software que crea una estructura procesable por máquina puede utilizar la estructura lingüística, auditiva y visual que existe en todas las formas de comunicación humana. [13] Los algoritmos pueden inferir esta estructura inherente del texto, por ejemplo, examinando la morfología de las palabras , la sintaxis de las oraciones y otros patrones de pequeña y gran escala. La información no estructurada se puede enriquecer y etiquetar para abordar ambigüedades y técnicas basadas en la relevancia que luego se utilizan para facilitar la búsqueda y el descubrimiento. Los ejemplos de "datos no estructurados" pueden incluir libros, revistas, documentos, metadatos , registros de salud , audio , video , datos analógicos , imágenes, archivos y texto no estructurado, como el cuerpo de un mensaje de correo electrónico , una página web o una palabra. documento del procesador . Si bien el contenido principal que se transmite no tiene una estructura definida, generalmente viene empaquetado en objetos (por ejemplo, en archivos o documentos, ...) que en sí mismos tienen estructura y, por lo tanto, son una combinación de datos estructurados y no estructurados, pero colectivamente esto sigue siendo denominados "datos no estructurados". [14] Por ejemplo, una página web HTML está etiquetada, pero el marcado HTML normalmente sirve únicamente para renderizar. No captura el significado o la función de los elementos etiquetados de manera que respalden el procesamiento automatizado del contenido de información de la página. El etiquetado XHTML permite el procesamiento automático de elementos, aunque normalmente no captura ni transmite el significado semántico de los términos etiquetados.
Dado que los datos no estructurados se encuentran comúnmente en documentos electrónicos , a menudo se prefiere el uso de un sistema de gestión de contenidos o documentos que pueda categorizar documentos completos a la transferencia y manipulación de datos desde dentro de los documentos. Por tanto, la gestión de documentos proporciona los medios para transmitir la estructura a las colecciones de documentos .
Los motores de búsqueda se han convertido en herramientas populares para indexar y buscar a través de dichos datos, especialmente texto.
Enfoques en el procesamiento del lenguaje natural
Se han desarrollado flujos de trabajo computacionales específicos para imponer estructura a los datos no estructurados contenidos en los documentos de texto. Estos flujos de trabajo generalmente están diseñados para manejar conjuntos de miles o incluso millones de documentos, o mucho más de lo que pueden permitir los enfoques manuales de anotaciones. Varios de estos enfoques se basan en el concepto de procesamiento analítico en línea, u OLAP , y pueden ser compatibles con modelos de datos como cubos de texto. [15] Una vez que los metadatos del documento están disponibles a través de un modelo de datos, se pueden generar resúmenes de subconjuntos de documentos (es decir, celdas dentro de un cubo de texto) con enfoques basados en frases. [dieciséis]
Enfoques en medicina e investigación biomédica
La investigación biomédica genera una fuente importante de datos no estructurados, ya que los investigadores a menudo publican sus hallazgos en revistas académicas. Aunque es difícil derivar elementos estructurales del lenguaje de estos documentos (p. Ej., Debido al complicado vocabulario técnico que contienen y al conocimiento del dominio necesario para contextualizar completamente las observaciones), los resultados de estas actividades pueden generar vínculos entre los estudios técnicos y médicos [17 ] y pistas sobre nuevas terapias para enfermedades. [18] Los esfuerzos recientes para hacer cumplir la estructura en los documentos biomédicos incluyen enfoques de mapas autoorganizados para identificar temas entre documentos, [19] algoritmos no supervisados de propósito general , [20] y una aplicación del flujo de trabajo CaseOLAP [16] para determinar asociaciones entre proteínas nombres y temas de enfermedades cardiovasculares en la literatura. [21] CaseOLAP define las relaciones frase-categoría de una manera precisa (identifica relaciones), consistente (altamente reproducible) y eficiente. Esta plataforma ofrece una accesibilidad mejorada y empodera a la comunidad biomédica con herramientas de minería de frases para aplicaciones de investigación biomédica generalizadas. [21]
El uso de "no estructurado" en las regulaciones de privacidad de datos
En años anteriores, algunas regulaciones de privacidad de datos podrían omitirse si los datos se confirmaban como "no estructurados". [22] Sin embargo, esta terminología rara vez se utiliza después de que el marco legal europeo GDPR entró en vigor en 2018. GDPR como tal, no menciona ni define "datos no estructurados". Sin embargo, utiliza la palabra "estructurado" de la siguiente manera (sin definirla);
- Partes del considerando 15, "La protección de las personas físicas debería aplicarse al procesamiento de datos personales ... si ... están incluidos en un sistema de archivo".
- Artículo 4, "'sistema de archivo' significa cualquier conjunto estructurado de datos personales que sean accesibles de acuerdo con criterios específicos ..."
La jurisprudencia del RGPD arroja más luz sobre lo que define un "sistema de archivo"; "El criterio específico y la forma concreta en que se estructura realmente el conjunto de datos personales recogidos por cada uno de los miembros que se dedican a la predicación es irrelevante, siempre que ese conjunto de datos posibilite los datos relativos a una persona concreta que ha sido contactado para su fácil recuperación , lo que, sin embargo, corresponde al órgano jurisdiccional remitente determinar a la luz de todas las circunstancias del caso en el procedimiento principal ”. ( TJUE , Todistajat contra Tietosuojavaltuutettu, Jehovan, párrafo 61 ).
Por lo tanto, si los datos personales se recuperan fácilmente, entonces es un sistema de archivo y, entonces, están dentro del alcance de GDPR y "estructurados" o "no estructurados" son irrelevantes. La mayoría de los sistemas electrónicos actuales, sujetos al acceso y al software aplicado, pueden permitir una fácil recuperación de datos.
Ver también
- Agrupación
- Reconocimiento de patrones
- Lista de software de minería de texto
Notas
- ^ El desafío de hoy en el gobierno: qué hacer con información no estructurada y por qué no hacer nada no es una opción, Noel Yuhanna, analista principal,Forrester Research, noviembre de 2010
Referencias
- ^ Shilakes, Christopher C .; Tylman, Julie (16 de noviembre de 1998). "Portales de información empresarial" (PDF) . Merrill Lynch . Archivado desde el original (PDF) el 24 de julio de 2011.
- ^ Grimes, Seth (1 de agosto de 2008). "Datos no estructurados y la regla del 80 por ciento" . Análisis revolucionario: puntos de puente . Clarabridge.
- ^ Gandomi, Amir; Haider, Murtaza (abril de 2015). "Más allá del bombo publicitario: conceptos, métodos y análisis de Big Data" . Revista Internacional de Gestión de la Información . 35 (2): 137-144. doi : 10.1016 / j.ijinfomgt.2014.10.007 . ISSN 0268-4012 .
- ^ "Los mayores desafíos de datos que quizás ni siquiera sepa que tiene: Watson" . Watson . 2016-05-25 . Consultado el 2 de octubre de 2018 .
- ^ "Datos estructurados vs. no estructurados" . www.datamation.com . Consultado el 2 de octubre de 2018 .
- ^ "Comunicado de prensa de EMC News: El nuevo estudio del universo digital revela una brecha de Big Data: se analiza menos del 1% de los datos del mundo; se protege menos del 20%" . www.emc.com . EMC Corporation. Diciembre 2012.
- ^ "Tendencias | Seagate EE . UU . " . Seagate.com . Consultado el 1 de octubre de 2018 .
- ^ a b Grimes, Seth. "Una breve historia de la analítica de texto" . B Eye Network . Consultado el 24 de junio de 2016 .
- ^ Albright, Russ. "Domesticar el texto con la SVD" (PDF) . SAS . Consultado el 24 de junio de 2016 .
- ^ Desai, Manish (9 de agosto de 2009). "Aplicaciones de Text Analytics" . My Business Analytics @ Blogspot . Consultado el 24 de junio de 2016 .
- ^ Chakraborty, Goutam. "Análisis de datos no estructurados: aplicaciones de análisis de texto y minería de sentimientos" (PDF) . SAS . Consultado el 24 de junio de 2016 .
- ^ Holzinger, Andreas; Stocker, Christof; Ofner, Bernhard; Prohaska, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer (2013). "Combinando HCI, procesamiento de lenguaje natural y descubrimiento de conocimiento: potencial de IBM Content Analytics como tecnología de asistencia en el campo biomédico" . En Holzinger, Andreas; Pasi, Gabriella (eds.). Interacción persona-computadora y descubrimiento de conocimiento en macrodatos complejos, no estructurados . Apuntes de conferencias en Ciencias de la Computación. Saltador. págs. 13-24. doi : 10.1007 / 978-3-642-39146-0_2 . ISBN 978-3-642-39146-0. S2CID 39461100 .
- ^ "Estructura, modelos y significado: ¿Los datos" no estructurados "simplemente no están modelados?" . InformationWeek . 1 de marzo de 2005.
- ^ Malone, Robert (5 de abril de 2007). "Estructuración de datos no estructurados" . Forbes .
- ^ Lin, Cindy Xide; Ding, Bolin; Han, Jiawei; Zhu, Feida; Zhao, Bo (diciembre de 2008). Cubo de texto: cálculo de medidas de infrarrojos para el análisis de bases de datos de texto multidimensionales . 2008 Octava Conferencia Internacional IEEE sobre Minería de Datos . IEEE. CiteSeerX 10.1.1.215.3177 . doi : 10.1109 / icdm.2008.135 . ISBN 9780769535029.
- ^ a b Tao, Fangbo; Zhuang, Honglei; Yu, Chi Wang; Wang, Qi; Cassidy, Taylor; Kaplan, Lance; Voss, Clare; Han, Jiawei (2016). "Resumen multidimensional basado en frases en cubos de texto" (PDF) .
- ^ Collier, Nigel; Nazarenko, Adeline; Baud, Robert; Ruch, Patrick (junio de 2006). "Avances recientes en el procesamiento del lenguaje natural para aplicaciones biomédicas". Revista Internacional de Informática Médica . 75 (6): 413–417. doi : 10.1016 / j.ijmedinf.2005.06.008 . ISSN 1386-5056 . PMID 16139564 .
- ^ González, Graciela H .; Tahsin, Tasnia; Goodale, Britton C .; Greene, Anna C .; Greene, Casey S. (enero de 2016). "Avances recientes y aplicaciones emergentes en minería de datos y texto para el descubrimiento biomédico" . Briefings en Bioinformática . 17 (1): 33–42. doi : 10.1093 / bib / bbv087 . ISSN 1477-4054 . PMC 4719073 . PMID 26420781 .
- ^ Skupin, André; Biberstine, Joseph R .; Börner, Katy (2013). "Visualización de la estructura temática de las ciencias médicas: un enfoque de mapa autoorganizado" . PLOS ONE . 8 (3): e58779. doi : 10.1371 / journal.pone.0058779 . ISSN 1932-6203 . PMC 3595294 . PMID 23554924 .
- ^ Kiela, Douwe; Guo, Yufan; Stenius, Ulla; Korhonen, Anna (1 de abril de 2015). "Descubrimiento no supervisado de la estructura de la información en documentos biomédicos" . Bioinformática . 31 (7): 1084–1092. doi : 10.1093 / bioinformatics / btu758 . ISSN 1367-4811 . PMID 25411329 .
- ^ a b Liem, David A .; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H .; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Frase de minería de datos textuales para analizar patrones de proteínas de matriz extracelular a través de enfermedades cardiovasculares" . Revista estadounidense de fisiología. Fisiología cardíaca y circulatoria . 315 (4): H910 – H924. doi : 10.1152 / ajpheart.00175.2018 . ISSN 1522-1539 . PMC 6230912 . PMID 29775406 .
- ^ "Las regulaciones suecas de privacidad de datos suspenden la separación de" no estructurado "y" estructurado " " .
enlaces externos
- Coincidencia de datos no estructurados y datos estructurados
- una breve descripción de los datos estructurados