Los datos (tratados como singular, plural o como un sustantivo masivo ) son cualquier secuencia de uno o más símbolos . Datum es un solo símbolo de datos. Los datos requieren interpretación para convertirse en información . Los datos digitales son datos que se representan mediante el sistema numérico binario de unos (1) y ceros (0), en contraposición a la representación analógica . En los sistemas informáticos modernos (posteriores a 1960), todos los datos son digitales.
Los datos existen en tres estados: datos en reposo , datos en tránsito y datos en uso . Los datos dentro de una computadora, en la mayoría de los casos, se mueven como datos paralelos . Los datos que se mueven hacia o desde una computadora, en la mayoría de los casos, se mueven como datos en serie . Los datos obtenidos de un dispositivo analógico, como un sensor de temperatura, se pueden convertir a digitales mediante un convertidor de analógico a digital . Los datos que representan cantidades , caracteres o símbolos en los que las operaciones son realizadas por una computadora se almacenan y registran en dispositivos magnéticos , ópticos., soportes de grabación electrónicos o mecánicos, y transmitidos en forma de señales digitales eléctricas u ópticas. [1] Los datos entran y salen de las computadoras a través de dispositivos periféricos .
Los elementos físicos de la memoria de la computadora consisten en una dirección y un byte / palabra de almacenamiento de datos. Los datos digitales a menudo se almacenan en bases de datos relacionales , como tablas o bases de datos SQL, y generalmente se pueden representar como pares abstractos de clave / valor. Los datos se pueden organizar en muchos tipos diferentes de estructuras de datos , incluidas matrices, gráficos y objetos . Las estructuras de datos pueden almacenar datos de muchos tipos diferentes , incluidos números , cadenas e incluso otras estructuras de datos .
Características [ editar ]
Los metadatos ayudan a convertir los datos en información. Los metadatos son datos sobre los datos. Los metadatos pueden estar implícitos, especificados o dados.
Los datos relacionados con eventos o procesos físicos tendrán un componente temporal. Este componente temporal puede estar implícito. Este es el caso cuando un dispositivo como un registrador de temperatura recibe datos de un sensor de temperatura . Cuando se recibe la temperatura se asume que el dato tiene una referencia temporal de ahora . Entonces, el dispositivo registra la fecha, la hora y la temperatura juntas. Cuando el registrador de datos comunica las temperaturas, también debe informar la fecha y la hora como metadatos para cada lectura de temperatura.
Básicamente, las computadoras siguen una secuencia de instrucciones que se les da en forma de datos. Un conjunto de instrucciones para realizar una determinada tarea (o tareas) se denomina " programa ". En el caso nominal, el programa, ejecutado por la computadora, consistirá en un código de máquina binario . Los elementos de almacenamiento manipulados por el programa, pero no ejecutados realmente por la CPU , también son datos. Las instrucciones del programa y los datos que manipula el programa se almacenan exactamente de la misma manera. En su forma más esencial, un solo dato es un valor almacenado en una ubicación específica. Por lo tanto, es posible que los programas de computadora operen en otros programas de computadora, manipulando sus datos programáticos.
La línea entre el programa y los datos puede volverse borrosa. Un intérprete , por ejemplo, es un programa. Los datos de entrada a un intérprete son en sí mismos un programa, pero no uno expresado en lenguaje de máquina nativo . En muchos casos, el programa interpretado será un archivo de texto legible por humanos , que se manipula con un programa editor de texto (más normalmente asociado con datos de texto sin formato ). De manera similar, la metaprogramación involucra programas que manipulan otros programas como datos. Programas como compiladores , enlazadores , depuradores , actualizadores de programas , escáneres de virus y utilizan otros programas como sus datos.
Para almacenar bytes de datos en un archivo, deben serializarse en un " formato de archivo ". Normalmente, los programas se almacenan en tipos de archivos especiales , diferentes de los que se utilizan para otros datos. Los archivos ejecutables contienen programas; todos los demás archivos también son archivos de datos . Sin embargo, los archivos ejecutables también pueden contener datos "en línea" que están integrados en el programa. En particular, algunos archivos ejecutables tienen un segmento de datos , que nominalmente contiene constantes y valores iniciales (ambos datos).
Por ejemplo: un usuario puede primero indicar al sistema operativo que cargue un programa de procesador de texto desde un archivo y luego editar un documento almacenado en otro archivo con el programa de procesador de texto. En este ejemplo, el documento se consideraría datos. Si el procesador de textos también incluye un corrector ortográfico , el diccionario (lista de palabras) del corrector ortográfico también se consideraría como datos. Los algoritmos utilizados por el corrector ortográfico para sugerir correcciones serían datos de código de máquina o texto en algún lenguaje de programación interpretable .
Un programa son datos en forma de instrucciones codificadas para controlar el funcionamiento de una computadora u otra máquina. [2]
En un uso alternativo, los archivos binarios (que no son legibles por humanos ) a veces se denominan "datos" a diferencia del " texto " legible por humanos . [3] La cantidad total de datos digitales en 2007 se estimó en 281 mil millones de gigabytes (= 281 exabytes ). [4] [5]
Claves y valores de datos, estructuras y persistencia [ editar ]
Las claves en los datos proporcionan el contexto para los valores. Independientemente de la estructura de los datos, siempre hay un componente clave presente. Las claves de datos en los datos y las estructuras de datos son esenciales para dar significado a los valores de los datos. Sin una clave que esté asociada directa o indirectamente con un valor, o una colección de valores en una estructura, los valores pierden significado y dejan de ser datos. Es decir, tiene que haber al menos un componente clave vinculado a un componente de valor para que se considere un dato. Los datos se pueden representar en computadoras de múltiples formas, según los siguientes ejemplos:
RAM [ editar ]
- La memoria de acceso aleatorio contiene datos a los que los procesadores de la computadora tienen acceso directo. Un procesador de computadora ( CPU ) solo puede manipular datos dentro de sí mismo ( registro del procesador ) o memoria. Esto es a diferencia del almacenamiento de datos, donde los procesadores deben mover datos entre el dispositivo de almacenamiento (disco, cinta ...) y la memoria. La RAM es una matriz de uno (1) o más bloques de ubicaciones lineales contiguas que un procesador puede leer o escribir proporcionando una dirección para la operación de lectura o escritura. La parte "aleatoria" de la RAM significa que el procesador puede operar en cualquier ubicación de la memoria en cualquier momento y en cualquier orden. (Ver también Unidad de gestión de memoria ). En RAM, el elemento más pequeño de datos es el " Bit Binario". Las capacidades y limitaciones de acceso a la RAM son específicas del procesador. En general, la memoria principal o RAM se organiza como una serie de" conjuntos de interruptores electrónicos de encendido / apagado "o ubicaciones que comienzan en la dirección 0 ( hexadecimal 0). Cada ubicación puede almacenar normalmente 8, 16, 32 o 64 bits paralelos dependiendo de la arquitectura del procesador ( CPU ). Por lo tanto, cualquier valor almacenado en un byte en la RAM tiene una ubicación coincidente expresada como un desplazamiento desde la primera ubicación de memoria en la matriz de memoria, es decir, 0 + n, donde n es el desplazamiento en la matriz de ubicaciones de memoria.
Llaves [ editar ]
- No es necesario que las claves de datos sean una dirección de hardware directa en la memoria. Los códigos de claves indirectos , abstractos y lógicos se pueden almacenar en asociación con valores para formar una estructura de datos . Las estructuras de datos tienen desplazamientos predeterminados (o enlaces o rutas) desde el inicio de la estructura, en los que se almacenan los valores de los datos. Por lo tanto, la clave de datos consiste en la clave de la estructura más el desplazamiento (o enlaces o rutas) en la estructura. Cuando dicha estructura se repite, almacenando variaciones de [los valores de datos y las claves de datos] dentro de la misma estructura de repetición, se puede considerar que el resultado se asemeja a una tabla., en el que cada elemento de la estructura repetida se considera una columna y cada repetición de la estructura se considera una fila de la tabla. En tal organización de datos, la clave de datos suele ser un valor en una (o un compuesto de los valores en varias) de las columnas.
Estructuras de datos recurrentes organizadas [ editar ]
- La vista tabular de estructuras de datos repetidas es solo una de las muchas posibilidades. Las estructuras de datos repetidas se pueden organizar jerárquicamente , de modo que los nodos estén vinculados entre sí en una cascada de relaciones entre padres e hijos. Los valores y las estructuras de datos potencialmente más complejas están vinculadas a los nodos. Por tanto, la jerarquía nodal proporciona la clave para abordar las estructuras de datos asociadas con los nodos. Esta representación se puede considerar como un árbol invertido . Por ejemplo, los sistemas de archivos del sistema operativo de las computadoras modernas son un ejemplo común; y XML es otro.
Datos ordenados u ordenados [ editar ]
- Los datos tienen algunas características inherentes cuando se ordenan en una clave . Todos los valores de los subconjuntos de la clave aparecen juntos. Cuando se pasa secuencialmente a través de grupos de datos con la misma clave, o un subconjunto de los cambios de clave, esto se conoce en los círculos de procesamiento de datos como una interrupción o una interrupción de control . En particular, facilita la agregación de valores de datos en subconjuntos de una clave.
Almacenamiento periférico [ editar ]
- Hasta la llegada de las memorias informáticas no volátiles como las memorias USB , el almacenamiento de datos persistentes se lograba tradicionalmente escribiendo los datos en dispositivos de bloque externos como cintas magnéticas y unidades de disco . Estos dispositivos normalmente buscan una ubicación en los medios magnéticos y luego leen o escriben bloques de datos de un tamaño predeterminado. En este caso, la ubicación de búsqueda en el medio es la clave de datos y los bloques son los valores de datos. Los primeros sistemas de archivos de datos o sistemas operativos de disco utilizados para reservar bloques contiguos en la unidad de disco para archivos de datos. En esos sistemas, los archivos podían llenarse, quedando sin espacio de datos antes de que todos los datos se hubieran escrito en ellos. Por lo tanto, gran parte del espacio de datos no utilizado se reservó de manera improductiva para evitar incurrir en esa situación. Esto se conocía como disco sin formato. Los sistemas de archivos posteriores introdujeron particiones. Reservaron bloques de espacio de datos en disco para particiones y utilizaron los bloques asignados de manera más económica, asignando dinámicamente bloques de una partición a un archivo según fuera necesario. Para lograr esto, el sistema de archivos tenía que realizar un seguimiento de los bloques que los archivos de datos usaban o no usaban en un catálogo o una tabla de asignación de archivos. Aunque esto hizo un mejor uso del espacio de datos del disco, resultó en la fragmentación de archivos en todo el disco y una sobrecarga de rendimiento concomitante debido a la latencia. Los sistemas de archivos modernos reorganizan los archivos fragmentados de forma dinámica para optimizar los tiempos de acceso a los archivos. Otros desarrollos en los sistemas de archivos dieron como resultado la virtualización de unidades de disco, es decir, donde una unidad lógica se puede definir como particiones de varias unidades físicas.
Datos indexados [ editar ]
- Recuperar un pequeño subconjunto de datos de un conjunto mucho más grande implica buscar los datos secuencialmente. Esto es antieconómico. Los índices son una forma de copiar claves y direcciones de ubicación de estructuras de datos en archivos, tablas y conjuntos de datos, y luego organizarlos usando estructuras de árbol invertidas para reducir el tiempo necesario para recuperar un subconjunto de los datos originales. Para hacer esto, se debe conocer la clave del subconjunto de datos a recuperar antes de que comience la recuperación. Los índices más populares son el árbol B y el hash dinámico.métodos de indexación clave. La indexación es otra sobrecarga costosa para archivar y recuperar datos. Hay otras formas de organizar los índices, por ejemplo, ordenar las claves o corregir cantidades (o incluso la clave y los datos juntos) y utilizar una búsqueda binaria en ellos.
Abstracción e indirección [ editar ]
- La orientación a objetos utiliza dos conceptos básicos para comprender los datos y el software: 1) La estructura de clasificación taxonómica de las clases de código de programa , que es un ejemplo de una estructura de datos jerárquica; y 2) En tiempo de ejecución, la creación de referencias de claves de datos a estructuras de datos en memoria de objetos que se han instanciado desde una biblioteca de clases . Solo después de la instanciación existe un objeto en ejecución de una clase especificada. Una vez que se anula la referencia de clave de un objeto, los datos a los que hace referencia ese objeto dejan de ser datos porque la referencia de clave de datos es nula; y por tanto el objeto también deja de existir. Las ubicaciones de la memoria donde se almacenaron los datos del objeto se denominan basura y se reclasifican como memoria no utilizada disponible para su reutilización.
Datos de la base de datos [ editar ]
- La llegada de las bases de datos introdujo una capa adicional de abstracción para el almacenamiento de datos persistente. Las bases de datos utilizan metadatos y un protocolo de lenguaje de consulta estructurado entre los sistemas cliente y servidor , comunicándose a través de una red, utilizando un sistema de registro de confirmación de dos fases para garantizar la integridad de las transacciones , cuando los datos persisten.
Procesamiento de datos distribuidos en paralelo [ editar ]
- Las tecnologías modernas de persistencia de datos escalables / de alto rendimiento se basan en el procesamiento de datos distribuidos masivamente en paralelo en muchas computadoras básicas en una red de gran ancho de banda. Un ejemplo de uno es Apache Hadoop . En tales sistemas, los datos se distribuyen a través de múltiples computadoras y, por lo tanto, cualquier computadora en particular en el sistema debe estar representada en la clave de los datos, ya sea directa o indirectamente. Esto permite la diferenciación entre dos conjuntos de datos idénticos, cada uno de los cuales se procesa en una computadora diferente al mismo tiempo.
Ver también [ editar ]
- Lenguaje ensamblador
- Big data
- Bus (informática)
- Byte
- Memoria del ordenador
- UPC
- Caché de la CPU
- Datos
- Diccionario de datos
- Modelado de datos
- Red de datos
- Dispositivo de almacenamiento de datos
- Flujo de datos
- Tipo de datos
- Base de datos
- Bus de datos
- Conjunto de datos
- Información digital
- Clave externa
- Clave hash
- Procesador de información
- Conjunto de instrucciones
- Dirección de memoria / ubicación / clave
- Offset (informática)
- Clave principal / única
- Registro de procesador
- Registro de turnos
- Estado (informática)
- Tupla
- Valor (informática)
- Arquitectura de von Neumann
Referencias [ editar ]
- ^ "datos" . Diccionarios de Oxford . Archivado desde el original el 6 de octubre de 2012 . Consultado el 11 de octubre de 2012 .
- ^ "programa de computadora" . Diccionario Oxford de bolsillo de inglés actual . Archivado desde el original el 28 de noviembre de 2011 . Consultado el 11 de octubre de 2012 .
- ^ "archivo (1)" . Páginas del manual de OpenBSD . 2015-12-24. Archivado desde el original el 5 de febrero de 2018 . Consultado el 4 de febrero de 2018 .
- ^ Paul, Ryan (12 de marzo de 2008). "Estudio: cantidad de información digital> capacidad de almacenamiento global" . Ars Technics. Archivado desde el original el 13 de marzo de 2008 . Consultado el 12 de marzo de 2008 .
- ^ Gantz, John F .; et al. (2008). "El universo digital diverso y explosivo" . International Data Corporation a través de EMC. Archivado desde el original el 11 de marzo de 2008 . Consultado el 12 de marzo de 2008 .