Familia de columnas estándar

La familia de columnas estándar es un objeto NoSQL que contiene columnas de datos relacionados. Es una tupla (par) que consta de un par clave-valor , donde la clave se asigna a un valor que es un conjunto de columnas. En analogía con las bases de datos relacionales, una familia de columnas estándar es como una "tabla", siendo cada par clave-valor una "fila". ^[1] Cada columna es una tupla ( triplete ) que consta de un nombre de columna, un valor y una marca de tiempo . ^[2] En una tabla de base de datos relacional , estos datos se agruparían dentro de una tabla con otros datos no relacionados. ^[3]

Las familias de columnas estándar son contenedores de columnas ordenados por sus nombres a los que se puede hacer referencia y ordenar por su clave de fila. ^[4]

Acceder a los datos en un almacén de datos distribuido sería costoso (consumo de tiempo), si se guardara en forma de tabla. También sería ineficaz leer todas las familias de columnas que formarían una fila en una tabla relacional y juntarlas para formar una fila, ya que los datos se distribuyen en una gran cantidad de nodos . Por tanto, el usuario accede únicamente a la información relacionada requerida.

Como ejemplo, una tabla relacional podría constar de las columnas UID, nombre, apellido, fecha de nacimiento, género, etc. En un almacén de datos distribuido, la misma tabla se implementaría creando familias de columnas para "UID, nombre, apellido". , "fecha de nacimiento, sexo", etc. Si se necesitan solo los varones que nacieron entre 1950 y 1960, para una consulta en la base de datos relacional, se debe leer toda la tabla. En un almacén de datos distribuido, basta con acceder solo a la segunda familia de columnas estándar, ya que el resto de la información es irrelevante.

No hay forma de ordenar columnas, ni de consultar una consulta arbitraria en almacenes de datos distribuidos . Las columnas se ordenan cuando se agregan a la familia de columnas. La forma de ordenar está definida por un atributo. Por ejemplo, esto lo hace el CompareWithatributo en Apache Cassandra que puede tener los siguientes valores:

También es posible agregar algunos atributos de clasificación definidos por el usuario. El uso de esta forma de clasificación hace que el proceso sea extremadamente rápido. ^[5]

Una familia de columnas estándar consta de una clave de fila (única) y varias columnas .