Conjunto de datos


Un conjunto de datos (o conjunto de datos ) es una colección de datos . En el caso de los datos tabulares, un conjunto de datos corresponde a una o más tablas de la base de datos , donde cada columna de una tabla representa una variable particular , y cada fila corresponde a un registro dado del conjunto de datos en cuestión. El conjunto de datos enumera valores para cada una de las variables, como la altura y el peso de un objeto, para cada miembro del conjunto de datos. Los conjuntos de datos también pueden consistir en una colección de documentos o archivos. [1]

En la disciplina de datos abiertos , el conjunto de datos es la unidad para medir la información publicada en un repositorio público de datos abiertos. El portal europeo de datos abiertos agrega más de medio millón de conjuntos de datos. [2] Algunas otras cuestiones (fuentes de datos en tiempo real, [3] conjuntos de datos no relacionales, etc.) aumentan la dificultad para llegar a un consenso al respecto. [3]

Varias características definen la estructura y las propiedades de un conjunto de datos. Estos incluyen el número y tipos de atributos o variables, y varias medidas estadísticas aplicables a ellos, como la desviación estándar y la curtosis . [4]

Los valores pueden ser números, como números reales o enteros , por ejemplo, que representan la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consisten en valores numéricos ), por ejemplo, que representan el origen étnico de una persona. Más generalmente, los valores pueden ser de cualquiera de los tipos descritos como nivel de medición . Para cada variable, los valores son normalmente todos del mismo tipo. Sin embargo, también pueden existir valores faltantes , los cuales deben ser indicados de alguna manera.

En estadística , los conjuntos de datos generalmente provienen de observaciones reales obtenidas al muestrear una población estadística , y cada fila corresponde a las observaciones de un elemento de esa población. Los conjuntos de datos también pueden ser generados por algoritmos con el fin de probar ciertos tipos de software . Algunos programas modernos de análisis estadístico, como SPSS , aún presentan sus datos en la forma clásica de conjunto de datos. Si faltan datos o son sospechosos , se puede utilizar un método de imputación para completar un conjunto de datos. [5]