Los datos legibles por máquina , o datos legibles por computadora , son datos en un formato que puede ser procesado por una computadora . Los datos legibles por máquina deben ser datos estructurados . [1]
En los Estados Unidos, la Ley de Datos del Gobierno OPEN del 14 de enero de 2019 define los datos legibles por máquina como "datos en un formato que puede ser procesado fácilmente por una computadora sin intervención humana, garantizando al mismo tiempo que no se pierda ningún significado semántico". La ley ordena a las agencias federales de los Estados Unidos que publiquen datos públicos de esa manera, [2] asegurando que "cualquier activo de datos públicos de la agencia sea legible por máquina". [3]
Los datos legibles por máquina pueden clasificarse en dos grupos: datos legibles por humanos que están marcados para que también puedan ser leídos por máquinas (por ejemplo , microformatos , RDFa , HTML ) y formatos de archivo de datos destinados principalmente a ser procesados por máquinas ( CSV , RDF , XML , JSON ). Estos formatos solo son legibles por máquina si los datos contenidos en ellos están estructurados formalmente; exportar un archivo CSV desde una hoja de cálculo mal estructurada no cumple con la definición.
Legible por máquina no es sinónimo de accesible digitalmente . Un documento accesible digitalmente puede estar en línea, lo que facilita el acceso de los humanos a través de computadoras, pero su contenido es mucho más difícil de extraer, transformar y procesar a través de la lógica de programación informática si no es legible por máquina. [4]
El Lenguaje de marcado extensible (XML) está diseñado para ser legible tanto por humanos como por máquinas, y la Transformación de lenguaje de hoja de estilo extensible (XSLT) se utiliza para mejorar la presentación de los datos para la legibilidad humana. Por ejemplo, XSLT se puede utilizar para representar automáticamente XML en formato de documento portátil (PDF). Los datos legibles por máquina se pueden transformar automáticamente para que sean legibles por humanos, pero, en términos generales, lo contrario no es cierto.
A los efectos de la implementación de la Ley de Modernización de la Ley de Resultados y Desempeño Gubernamental (GPRA), la Oficina de Administración y Presupuesto (OMB) define el "formato legible por máquina" de la siguiente manera: "Formato en un idioma estándar de computadora (no texto en inglés) que puede ser leer automáticamente mediante un navegador web o un sistema informático. (p. ej., xml). Los humanos pueden leer fácilmente los documentos tradicionales de procesamiento de texto y los archivos en formato de documento portátil (PDF), pero suelen ser difíciles de interpretar para las máquinas. Otros formatos, como el lenguaje de marcado extensible ( XML), (JSON) o las hojas de cálculo con columnas de encabezado que se pueden exportar como valores separados por comas (CSV) son formatos legibles por máquina. Dado que HTML es un lenguaje de marcado estructural que etiqueta discretamente partes del documento, las computadoras pueden recopilar componentes del documento. para ensamblar tablas de contenido, esquemas, bibliografías de búsqueda de literatura, etc. Es posible hacer que los documentos tradicionales de procesamiento de texto y otros formatos sean legibles por máquina, pero los documentos debe incluir elementos estructurales mejorados ". [5]
Ver también
Referencias
- ^ "Legible por máquina" . opendatahandbook.org . Consultado el 22 de julio de 2019 .
- ^ "HR4174" . stratml.us .
- ^ "HR4174" . stratml.us .
- ^ "Una introducción a la legibilidad mecánica para documentos y datos en línea" . Data.gov . 2012-09-24 . Consultado el 27 de febrero de 2015 .
- ^ Circular A-11 de la OMB, parte 6 Archivado el 22 de abril de 2020 en Wayback Machine , preparación, presentación y ejecución del presupuesto