datos ordenados


Tidy data es un nombre alternativo para la forma estadística común llamada matriz modelo o matriz de datos . Una matriz de datos se define en [1] como sigue:

Un método estándar para mostrar un conjunto multivariante de datos es en forma de una matriz de datos en la que las filas corresponden a los individuos de la muestra y las columnas a las variables, de modo que la entrada en la i -ésima fila y la j -ésima columna da el valor de la j -ésima . variar según lo medido u observado en el i -ésimo individuo.

Hadley Wickham definió más tarde "Datos ordenados" como conjuntos de datos que se organizan de tal manera que cada variable es una columna y cada observación (o caso ) es una fila. [2] (Originalmente con condiciones adicionales por tabla que hacían que la definición fuera equivalente a la tercera forma normal de Boyce-Codd ).

La disposición de los datos es una consideración importante en el procesamiento de datos, pero no debe confundirse con la también importante tarea de limpieza de datos .

Otras formulaciones relevantes incluyen la desnormalización antes del modelado de aprendizaje automático (que denota informalmente mover datos a una "forma ancha" donde todas las medidas posibles están en una fila dada) y el uso de triples semánticos como representación intermedia (informalmente un "alto" o "largo" formulario, donde las mediciones sobre una sola instancia se distribuyen en muchas filas).