Un documento legible por máquina es un documento cuyo contenido puede ser procesado fácilmente por computadoras . Dichos documentos se distinguen de los datos legibles por máquina en virtud de que tienen una estructura suficiente para proporcionar el contexto necesario para respaldar los procesos comerciales para los que se crean.
Definición
Los datos sin contexto (uso del lenguaje) no tienen sentido y carecen de las cuatro características esenciales de los registros comerciales confiables especificados en ISO 15489 Información y documentación - Gestión de registros : [1]
- Fiabilidad
- Autenticidad
- Integridad
- Usabilidad
La mayor parte de la información son datos no estructurados y, desde una perspectiva empresarial, eso significa que es "inmadura", es decir, nivel 1 (caótico) del modelo de madurez de capacidad . Tal inmadurez fomenta la ineficiencia, disminuye la calidad y limita la efectividad. La información no estructurada también es inadecuada para las funciones de administración de registros , proporciona evidencia inadecuada para fines legales, aumenta el costo de descubrimiento en litigios y hace que el acceso y el uso sean innecesariamente engorrosos en los procesos comerciales rutinarios y continuos .
Hay al menos cuatro aspectos de la legibilidad por máquina:
- Primero, las palabras o frases deben estar delineadas (etiquetadas) de manera discreta para que el software de computadora y / o la lógica del hardware se les pueda aplicar como elementos conceptuales individuales.
- En segundo lugar, se debe especificar la semántica de cada elemento para que las computadoras puedan ayudar a los seres humanos a lograr una comprensión común de sus significados y usos potenciales.
- En tercer lugar, si también se especifican las relaciones entre los elementos individuales, las computadoras pueden aplicarles inferencias automáticamente, aliviando así aún más a los seres humanos de la carga de tratar de comprenderlos, en particular con fines de investigación, descubrimiento y análisis.
- En cuarto lugar, si también se especifican las estructuras de los documentos en los que se encuentran los elementos, la comprensión humana se mejora aún más y los datos se vuelven más confiables para fines legales y de calidad comercial.
Ya en 1983, la Oficina de Responsabilidad del Gobierno de EE. UU. (GAO) comenzó a enfatizar los beneficios de la información legible por máquina. [2] Aún antes, en 1981, la GAO comenzó a informar sobre el problema de las prácticas inadecuadas de mantenimiento de registros en el gobierno federal de los Estados Unidos. [3] Estas deficiencias no son exclusivas del gobierno y los avances en la tecnología de la información significan que la mayor parte de la información ahora "nace digital" y, por lo tanto, es potencialmente mucho más fácil de manejar por medios automatizados. [4] Sin embargo, en su testimonio ante el Congreso en 2010, la GAO destacó los problemas con la gestión de registros electrónicos, y tan recientemente como en 2015, la GAO ha continuado informando deficiencias en el desempeño de las agencias de la Rama Ejecutiva en el cumplimiento de los requisitos de gestión de registros. [5] [6] Además, más de dos décadas después de que Arthur Andersen , una importante firma de auditoría anteriormente muy respetada, desapareciera debido a un escándalo de destrucción de registros, las prácticas de mantenimiento de registros se convirtieron en un tema central en las elecciones presidenciales de 2016.
El 4 de enero de 2011, el presidente Obama firmó HR 2142, la Ley de Modernización de la Ley de Resultados y Desempeño del Gobierno (GPRA) de 2010 (GPRAMA), convertida en ley como PL 111-352. La sección 10 de GPRAMA requiere que las agencias federales de EE. UU. Publiquen sus planes e informes estratégicos y de desempeño en un formato legible por máquina y con capacidad de búsqueda. [7] Además, en 2013, emitió la Orden Ejecutiva 13642, Making Open and Machine Legible the New Default for Government Information en general. [8] El 28 de julio de 2016, la Oficina de Gestión y Presupuesto (OMB) siguió incluyendo en la emisión revisada de la Circular A-130 instrucciones para que las agencias usen formatos abiertos, legibles por máquina, [9] y publiquen " información pública en línea de una manera que promueva el análisis y la reutilización para la gama más amplia posible de fines ", [10] lo que significa que la información es tanto accesible al público como legible por máquina. El 14 de enero de 2019, el presidente Trump promulgó la ley HR 4174, [11] la Ley de datos gubernamentales OPEN (OGDA), que codifica en la ley el requisito de que las agencias pongan a disposición sus activos de datos públicos en formato legible por máquina. El 28 de junio de 2019, en la Circular A-11, [12] OMB expresó su intención de comenzar a cumplir con la sección 10 de GPRAMA. [13]
En apoyo de esa dirección política, los avances tecnológicos están permitiendo una gestión y un uso más eficientes y eficaces de los documentos electrónicos legibles por máquina. Las bases de datos orientadas a documentos se han desarrollado para almacenar, recuperar y administrar información orientada a documentos, también conocida como datos semiestructurados. Extensible Markup Language ( XML ) es una recomendación del World Wide Web Consortium ( W3C ) que establece reglas para codificar documentos en un formato que sea legible por humanos y por máquina. Se han desarrollado muchas herramientas de edición de XML y la mayoría, si no todas, las principales aplicaciones de tecnología de la información admiten XML en mayor o menor grado. El hecho de que XML en sí sea un formato abierto, estándar y legible por máquina hace que sea relativamente fácil para los desarrolladores de aplicaciones hacerlo.
La Recomendación de esquema XML ( XSD ) adjunta del W3C especifica cómo describir formalmente los elementos en un documento XML. Con respecto a la especificación de esquemas XML, la Organización para el Avance de Estándares de Información Estructurada (OASIS) es una organización líder en el desarrollo de estándares . Sin embargo, muchos desarrolladores técnicos prefieren trabajar con JSON , y para definir la estructura de los datos JSON para la validación, documentación y control de interacción, JSON Schema fue desarrollado por Internet Engineering Task Force (IETF).
El formato de documento portátil (PDF) es un formato de archivo que se utiliza para presentar documentos de una manera independiente del software de aplicación, el hardware y los sistemas operativos. Cada archivo PDF contiene una descripción completa de la presentación del documento, incluido el texto, las fuentes, los gráficos y otra información necesaria para mostrarlo. PDF / A es una versión del PDF estandarizada por ISO especializada para su uso en el archivo y conservación a largo plazo de documentos electrónicos. PDF / A-3 permite la incrustación de otros formatos de archivo, incluido XML, en documentos que cumplen con PDF / A, lo que potencialmente proporciona lo mejor de la legibilidad tanto humana como mecánica. El lenguaje de marcado XSL-FO (XSL Formatting Objects) del W3C se usa comúnmente para generar archivos PDF
Los metadatos , los datos sobre los datos, se pueden utilizar para organizar recursos electrónicos, proporcionar identificación digital y respaldar el archivo y la preservación de recursos. En registros electrónicos bien estructurados y legibles por máquina, el contenido se puede reutilizar como datos y metadatos. En el contexto de los sistemas de mantenimiento de registros electrónicos, los términos "gestión" y "metadatos" son prácticamente sinónimos. Con los metadatos adecuados, las funciones de gestión de registros pueden automatizarse, reduciendo así el riesgo de expoliación de pruebas y otras manipulaciones fraudulentas de registros. Además, dichos registros se pueden utilizar para automatizar el proceso de auditoría de datos mantenidos en bases de datos , reduciendo así el riesgo de puntos únicos de falla asociados con el concepto maquiavélico de una sola fuente de verdad .
Blockchain (base de datos) es una nueva tecnología para mantener listas de registros en continuo crecimiento aseguradas contra alteraciones y revisiones. Una característica clave es que cada nodo en un sistema descentralizado tiene una copia de la cadena de bloques, por lo que no hay un solo punto de falla sujeto a manipulación y fraude .
Ver también
- Declaración de Budapest sobre documentos de viaje de lectura mecánica
- Comparación de editores XML
- Cuatro esquinas (ley)
- Integridad y, en particular, integridad de los datos
- Datos vinculados
- Pasaporte legible por máquina
- Lenguaje de marcado
- Información abierta
- Fiabilidad (estadísticas) , integridad de los datos , fiabilidad (redes informáticas) y fiabilidad (métodos de investigación)
- Lenguaje de marcado de estrategia (StratML)
- Documento estructurado
- Etiqueta (metadatos)
- Lenguaje empresarial universal (UBL)
- XBRL (Lenguaje extensible de informes comerciales)
Referencias
- ^ "Orientación de NARA sobre la gestión de registros web" . Archivos Nacionales . 15 de agosto de 2016.
- ^ "Un mejor uso de la tecnología de la información puede reducir la carga del papeleo federal" (PDF) . gao.gov . 1983-04-11 . Consultado el 25 de julio de 2019 . CS1 maint: parámetro desalentado ( enlace )
- ^ "GESTIÓN DE REGISTROS FEDERALES: Una historia de negligencia" . gao.gov . 1981-02-24 . Consultado el 8 de septiembre de 2016 . CS1 maint: parámetro desalentado ( enlace )
- ^ "Definición de" nacido digital ": ensayo de Ricky Erway, OCLC Research" (PDF) . oclc.org . 2010-11-30 . Consultado el 8 de septiembre de 2016 . CS1 maint: parámetro desalentado ( enlace )
- ^ "GESTIÓN DE LA INFORMACIÓN: Los desafíos de la gestión de registros electrónicos, Declaración de Valerie C. Melvin, Directora, Gestión de la información y cuestiones de capital humano" (PDF) . gao.gov . 2010-06-17 . Consultado el 8 de septiembre de 2016 . CS1 maint: parámetro desalentado ( enlace )
- ^ "GESTIÓN DE LA INFORMACIÓN: Se necesitan acciones adicionales para cumplir con los requisitos de la Directiva de gestión de registros gubernamentales" . gao.gov . 2015-05-14 . Consultado el 8 de septiembre de 2016 . CS1 maint: parámetro desalentado ( enlace )
- ^ "GPRAMA SEC. 10. FORMATO DE PLANES E INFORMES DE DESEMPEÑO" . congress.gov . 2011-01-04. Archivado desde el original el 13 de abril de 2016 . Consultado el 8 de septiembre de 2016 . CS1 maint: parámetro desalentado ( enlace )
- ^ "Orden ejecutiva 13642 en formato de lenguaje de marcado estratégico abierto, estándar y legible por máquina" . whitehouse.gov . 2013-05-09. Archivado desde el original el 3 de marzo de 2016 . Consultado el 8 de septiembre de 2016 . CS1 maint: parámetro desalentado ( enlace )
- ^ "Circular del Plan Estratégico N ° A-130, Gestión de la información como recurso estratégico, Objetivo d.5.a: Interoperabilidad, API y legibilidad mecánica" .
- ^ “Circular del Plan Estratégico No. A-130, Gestión de la información como recurso estratégico, Objetivo e.2.a: Publicación” .
- ^ Ryan, Paul D. (14 de enero de 2019). "Texto - HR4174 - 115º Congreso (2017-2018): Fundamentos de la Ley de formulación de políticas basadas en pruebas de 2018" . www.congress.gov .
- ^ "ELABORACIÓN, PRESENTACIÓN Y EJECUCIÓN DEL PRESUPUESTO" (PDF) . whitehouse.gov . 2019-06-28 . Consultado el 25 de julio de 2019 . CS1 maint: parámetro desalentado ( enlace )
- ^ "Circular del Plan Estratégico No. A-130, Gestión de la información como recurso estratégico, legibilidad mecánica objetiva" .
enlaces externos
- OMB M-13-13 , Política de datos abiertos: gestión de la información como un activo, que requiere que las agencias utilicen estándares de formato de datos abiertos y legibles por máquina
- NARA Guidance on Managing Web Records , enero de 2005, que describe las características de los registros confiables.
- Impulsar una apuesta en el corazón del método de gestión de registros de consultoría de Capone: mejores prácticas para corregir las tonterías que no son de registros y que no son políticas , 9 de marzo de 2015
- El Código de EE. UU., Que incluye el término "legible por máquina" más de 50 veces al 10 de septiembre de 2016