Estructura de datos sucinta

En informática , una estructura de datos sucinta es una estructura de datos que utiliza una cantidad de espacio "cercana" al límite inferior de la teoría de la información , pero (a diferencia de otras representaciones comprimidas) aún permite operaciones de consulta eficientes. El concepto fue introducido originalmente por Jacobson ^[1] para codificar vectores de bits , árboles (sin etiquetar) y gráficos planos . A diferencia de los algoritmos generales de compresión de datos sin pérdida , las estructuras de datos sucintas conservan la capacidad de usarlas in situ, sin descomprimirlas primero. Una noción relacionada es la de una estructura de datos comprimidos., en el que el tamaño de la estructura de datos depende de los datos particulares que se representan.

Suponer que ${\ Displaystyle Z}$ es el número óptimo teórico de información de bits necesarios para almacenar algunos datos. Una representación de estos datos se llama:

implícito si se necesita ${\ Displaystyle Z + O (1)}$ pedazos de espacio,
sucinto si se necesita ${\ Displaystyle Z + o (Z)}$ pedazos de espacio, y
compacto si se necesita ${\ Displaystyle O (Z)}$ pedazos de espacio.

Por ejemplo, una estructura de datos que usa ${\ displaystyle 2Z}$ bits de almacenamiento es compacto, ${\ Displaystyle Z + {\ sqrt {Z}}}$ bits es sucinto, ${\ Displaystyle Z + \ lg Z}$ bits también es sucinto, y ${\ Displaystyle Z + 3}$ bits está implícito.

Por tanto, las estructuras implícitas suelen reducirse a almacenar información utilizando alguna permutación de los datos de entrada; el ejemplo más conocido de esto es el montón .

Diccionarios sucintos

Los diccionarios indexables sucintos, también llamados diccionarios de clasificación / selección , forman la base de una serie de técnicas de representación sucinta, incluidos árboles binarios , ${\ Displaystyle k}$ árboles ary y conjuntos múltiples , ^[2] , así como sufijo árboles y matrices . ^[3] El problema básico es almacenar un subconjunto ${\ Displaystyle S}$ de un universo ${\ Displaystyle U = [0 \ dots n) = \ {0,1, \ dots, n-1 \}}$ , generalmente representado como una matriz de bits ${\ Displaystyle B [0 \ dots n)}$ dónde ${\ Displaystyle B [i] = 1}$ si ${\ Displaystyle i \ en S.}$ Un diccionario indexable admite los métodos habituales de los diccionarios (consultas e inserciones / eliminaciones en el caso dinámico), así como las siguientes operaciones:

${\ Displaystyle \ mathbf {rango} _ {q} (x) = | \ {k \ en [0 \ dots x]: B [k] = q \} |}$
${\ Displaystyle \ mathbf {select} _ {q} (x) = \ min \ {k \ in [0 \ dots n): \ mathbf {rank} _ {q} (k) = x \}}$

por ${\ Displaystyle q \ in \ {0,1 \}}$ .

En otras palabras, ${\ Displaystyle \ mathbf {rango} _ {q} (x)}$ devuelve el número de elementos igual a ${\ Displaystyle q}$ hasta la posición ${\ Displaystyle x}$ tiempo ${\ Displaystyle \ mathbf {select} _ {q} (x)}$ devuelve la posición del ${\ Displaystyle x}$ -ésima aparición de ${\ Displaystyle q}$ .

Hay una representación simple ^[4] que usa ${\ Displaystyle n + o (n)}$ bits de espacio de almacenamiento (la matriz de bits original y un ${\ Displaystyle o (n)}$ estructura auxiliar) y admite rango y selección en tiempo constante. Utiliza una idea similar a la de las consultas de rango mínimo ; hay un número constante de recursiones antes de detenerse en un subproblema de tamaño limitado. La matriz de bits ${\ Displaystyle B}$ está dividido en grandes bloques de tamaño ${\ Displaystyle l = \ lg ^ {2} n}$ bits y pequeños bloques de tamaño ${\ Displaystyle s = \ lg n / 2}$ bits. Para cada bloque grande, el rango de su primer bit se almacena en una tabla separada ${\ Displaystyle R_ {l} [0 \ dots n / l)}$ ; cada una de estas entradas toma ${\ Displaystyle \ lg n}$ bits para un total de ${\ Displaystyle (n / l) \ lg n = n / \ lg n}$ bits de almacenamiento. Dentro de un bloque grande, otro directorio ${\ Displaystyle R_ {s} [0 \ dots l / s)}$ almacena el rango de cada uno de los ${\ Displaystyle l / s = 2 \ lg n}$ pequeños bloques que contiene. La diferencia aquí es que solo necesita ${\ Displaystyle \ lg l = \ lg \ lg ^ {2} n = 2 \ lg \ lg n}$ bits para cada entrada, ya que solo es necesario almacenar las diferencias con respecto al rango del primer bit en el bloque grande que lo contiene. Por lo tanto, esta tabla toma un total de ${\ Displaystyle (n / s) \ lg l = 4n \ lg \ lg n / \ lg n}$ bits. Una tabla de búsqueda ${\ Displaystyle R_ {p}}$ luego se puede usar que almacena la respuesta a cada consulta de rango posible en una cadena de bits de longitud ${\ Displaystyle s}$ por ${\ Displaystyle i \ en [0, s)}$ ; esto requiere ${\ Displaystyle 2 ^ {s} s \ lg s = O ({\ sqrt {n}} \ lg n \ lg \ lg n)}$ bits de espacio de almacenamiento. Así, dado que cada una de estas tablas auxiliares toma ${\ Displaystyle o (n)}$ espacio, esta estructura de datos admite consultas de clasificación en ${\ Displaystyle O (1)}$ tiempo y ${\ Displaystyle n + o (n)}$ pedazos de espacio.

Para responder a una consulta de ${\ Displaystyle \ mathbf {rango} _ {1} (x)}$ en tiempo constante, un algoritmo de tiempo constante calcula:

${\ Displaystyle \ mathbf {rango} _ {1} (x) = R_ {l} [\ lfloor x / l \ rfloor] + R_ {s} [\ lfloor x / s \ rfloor] + R_ {p} [x \ lfloor x / s \ rfloor, x {\ text {mod}} s]}$

En la práctica, la tabla de búsqueda ${\ Displaystyle R_ {p}}$ se puede reemplazar por operaciones bit a bit y tablas más pequeñas que se pueden usar para encontrar el número de bits establecidos en los bloques pequeños. Esto a menudo es beneficioso, ya que las estructuras de datos sucintas encuentran su uso en grandes conjuntos de datos, en cuyo caso las fallas de caché se vuelven mucho más frecuentes y las posibilidades de que la tabla de búsqueda sea expulsada de cachés de CPU más cercanos aumentan. ^{[5] Las} consultas seleccionadas se pueden respaldar fácilmente haciendo una búsqueda binaria en la misma estructura auxiliar utilizada para la clasificación ; sin embargo, esto requiere ${\ Displaystyle O (\ lg n)}$ tiempo en el peor de los casos. Una estructura más complicada usando ${\ Displaystyle 3n / \ lg \ lg n + O ({\ sqrt {n}} \ lg n \ lg \ lg n) = o (n)}$ Se pueden utilizar bits de almacenamiento adicional para admitir la selección en tiempo constante. ^[6] En la práctica, muchas de estas soluciones tienen constantes ocultas en el ${\ Displaystyle O (\ cdot)}$ notación que domina antes de que se haga evidente cualquier ventaja asintótica; las implementaciones que utilizan operaciones de palabra amplia y bloques alineados con palabras suelen funcionar mejor en la práctica. ^[7]

Diccionarios comprimidos en entropía

La ${\ Displaystyle n + o (n)}$ El enfoque espacial se puede mejorar notando que hay ${\ Displaystyle \ textstyle {\ binom {n} {m}}}$ distinto ${\ Displaystyle m}$ -subconjuntos de ${\ Displaystyle [n)}$ (o cadenas binarias de longitud ${\ Displaystyle n}$ exactamente con ${\ Displaystyle m}$ 1's), y por lo tanto ${\ Displaystyle \ textstyle {\ mathcal {B}} (m, n) = \ lceil \ lg {\ binom {n} {m}} \ rceil}$ es un límite inferior teórico de la información sobre el número de bits necesarios para almacenar ${\ Displaystyle B}$ . Hay un diccionario sucinto (estático) que alcanza este límite, es decir, utilizando ${\ Displaystyle {\ mathcal {B}} (m, n) + o ({\ mathcal {B}} (m, n))}$ espacio. ^[8] Esta estructura se puede ampliar para admitir consultas de clasificación y selección y ${\ Displaystyle {\ mathcal {B}} (m, n) + O (m + n \ lg \ lg n / \ lg n)}$ espacio. ^[2] Sin embargo, las consultas de rango correcto en esta estructura se limitan a los elementos contenidos en el conjunto, de forma análoga a cómo funcionan las funciones mínimas de hash perfecto. Este límite se puede reducir a una compensación de espacio / tiempo reduciendo el espacio de almacenamiento del diccionario a ${\ Displaystyle {\ mathcal {B}} (m, n) + O (nt ^ {t} / \ lg ^ {t} n + n ^ {3/4})}$ con consultas tomando ${\ Displaystyle O (t)}$ hora. ^[9]

Ejemplos de

Una cadena terminada en nulo ( cadena C ) ocupa un espacio Z + 1 y, por lo tanto, está implícita. Una cadena con una longitud arbitraria ( cadena Pascal ) ocupa un espacio Z + log ( Z ) y, por lo tanto, es sucinta. Si hay una longitud máxima, que es el caso en la práctica, dado que 2 ³² = 4 GiB de datos es una cadena muy larga, y 2 ⁶⁴ = 16 EiB de datos es más grande que cualquier cadena en la práctica, entonces una cadena con una longitud también está implícito, tomando el espacio Z + k , donde k es el número de datos para representar la longitud máxima (por ejemplo, 64 bits).

Cuando es necesario codificar una secuencia de elementos de longitud variable (como cadenas), existen varias posibilidades. Un enfoque directo es almacenar una longitud y un elemento en cada registro; estos se pueden colocar uno tras otro. Esto permite seguir eficientemente, pero no encontrar el k- ésimo elemento. Una alternativa es colocar los elementos en orden con un delimitador (por ejemplo, una cadena terminada en nulo ). Esto usa un delimitador en lugar de una longitud y es sustancialmente más lento, ya que se debe escanear toda la secuencia en busca de delimitadores. Ambos son eficientes en espacio. Un enfoque alternativo es la separación fuera de banda: los elementos pueden simplemente colocarse uno tras otro, sin delimitadores. Los límites de los elementos se pueden almacenar como una secuencia de longitud, o mejor, compensaciones en esta secuencia. Alternativamente, se codifica una cadena binaria separada que consta de unos en las posiciones donde comienza un elemento y ceros en cualquier otro lugar. Dada esta cadena, el ${\ displaystyle select}$ La función puede determinar rápidamente dónde comienza cada elemento, dado su índice. ^[10] Esto es compacto pero no sucinto, ya que ocupa un espacio de 2 Z , que es O ( Z ).

Otro ejemplo es la representación de un árbol binario : un árbol binario arbitrario en ${\ Displaystyle n}$ los nodos se pueden representar en ${\ Displaystyle 2n + o (n)}$ bits mientras admite una variedad de operaciones en cualquier nodo, lo que incluye encontrar su padre, su hijo izquierdo y derecho, y devolver el tamaño de su subárbol, cada uno en tiempo constante. El número de árboles binarios diferentes en ${\ Displaystyle n}$ los nodos es ${\ Displaystyle {\ tbinom {2n} {n}}}$ ${\ Displaystyle / (n + 1)}$ . Para grande ${\ Displaystyle n}$ , esto es sobre ${\ Displaystyle 4 ^ {n}}$ ; por lo que necesitamos al menos sobre ${\ Displaystyle \ log _ {2} (4 ^ {n}) = 2n}$ bits para codificarlo. Por lo tanto, un árbol binario sucinto ocuparía solo ${\ Displaystyle 2}$ bits por nodo.

Ver también

Función hash perfecta mínima

Referencias

^ Jacobson, G. J (1988). Estructuras sucintas de datos estáticos (tesis doctoral). Pittsburgh, PA: Universidad Carnegie Mellon.
^ ^a ^b Raman, R .; V. Raman; S. S Rao (2002). "Diccionarios indexables sucintos con aplicaciones para la codificación de árboles k-ary y multisets" . Actas del decimotercer simposio anual ACM-SIAM sobre algoritmos discretos . págs. 233–242 . arXiv : 0705.0552 . CiteSeerX 10.1.1.246.3123 . doi : 10.1145 / 1290672.1290680 . ISBN 0-89871-513-X.
^ Sadakane, K .; R. Grossi (2006). "Exprimir estructuras de datos sucintas en límites de entropía" (PDF) . Actas del decimoséptimo simposio anual ACM-SIAM sobre algoritmo discreto . págs. 1230-1239. ISBN 0-89871-605-5. Archivado desde el original (PDF) el 29 de septiembre de 2011.
^ Jacobson, G. (1 de noviembre de 1989). Árboles y gráficos estáticos que ahorran espacio (PDF) . 30º Simposio del IEEE sobre fundamentos de la informática. doi : 10.1109 / SFCS.1989.63533 . Archivado desde el original (PDF) el 12 de marzo de 2016.
^ González, R .; S. Grabowski; V. Mäkinen; G. Navarro (2005). "Implementación práctica de consultas de clasificación y selección" (PDF) . Poster Proceedings Volume del 4º Taller sobre Algoritmos Eficientes y Experimentales (WEA) . págs. 27–38.
^ Clark, David (1996). Árboles de palmaditas compactos (PDF) (tesis doctoral). Universidad de Waterloo.
^ Vigna, S. (2008). Implementación de palabra amplia de consultas de clasificación / selección (PDF) . Algoritmos experimentales . Apuntes de conferencias en Ciencias de la Computación. 5038 . págs. 154-168. CiteSeerX 10.1.1.649.8950 . doi : 10.1007 / 978-3-540-68552-4_12 . ISBN 978-3-540-68548-7.
^ Brodnik, A .; J. I Munro (1999). "Membresía en tiempo constante y espacio casi mínimo" (PDF) . SIAM J. Comput . 28 (5): 1627-1640. CiteSeerX 10.1.1.530.9223 . doi : 10.1137 / S0097539795294165 .
^ Pătraşcu, M. (2008). "Succínter" (PDF) . Fundamentos de la informática, 2008. FOCS'08. IEEE 49th Annual IEEE Symposium on . págs. 305–313.
^ Belazzougui, Djamal. "Hash, desplazar y comprimir" (PDF) .

[jacobson1988succinct-1] Jacobson, G. J (1988). Estructuras sucintas de datos estáticos (tesis doctoral). Pittsburgh, PA: Universidad Carnegie Mellon.

[raman2002succinct-2] Raman, R .; V. Raman; S. S Rao (2002). "Diccionarios indexables sucintos con aplicaciones para la codificación de árboles k-ary y multisets" . Actas del decimotercer simposio anual ACM-SIAM sobre algoritmos discretos . págs. 233–242 . arXiv : 0705.0552 . CiteSeerX 10.1.1.246.3123 . doi : 10.1145 / 1290672.1290680 . ISBN 0-89871-513-X.

[sadakane2006squeezing-3] Sadakane, K .; R. Grossi (2006). "Exprimir estructuras de datos sucintas en límites de entropía" (PDF) . Actas del decimoséptimo simposio anual ACM-SIAM sobre algoritmo discreto . págs. 1230-1239. ISBN 0-89871-605-5. Archivado desde el original (PDF) el 29 de septiembre de 2011.

[jacobson1989space-4] Jacobson, G. (1 de noviembre de 1989). Árboles y gráficos estáticos que ahorran espacio (PDF) . 30º Simposio del IEEE sobre fundamentos de la informática. doi : 10.1109 / SFCS.1989.63533 . Archivado desde el original (PDF) el 12 de marzo de 2016.

[gonzález2005practical-5] González, R .; S. Grabowski; V. Mäkinen; G. Navarro (2005). "Implementación práctica de consultas de clasificación y selección" (PDF) . Poster Proceedings Volume del 4º Taller sobre Algoritmos Eficientes y Experimentales (WEA) . págs. 27–38.

[clark1998compact-6] Clark, David (1996). Árboles de palmaditas compactos (PDF) (tesis doctoral). Universidad de Waterloo.

[vigna2008broadword-7] Vigna, S. (2008). Implementación de palabra amplia de consultas de clasificación / selección (PDF) . Algoritmos experimentales . Apuntes de conferencias en Ciencias de la Computación. 5038 . págs. 154-168. CiteSeerX 10.1.1.649.8950 . doi : 10.1007 / 978-3-540-68552-4_12 . ISBN 978-3-540-68548-7.

[brodnik1999membership-8] Brodnik, A .; J. I Munro (1999). "Membresía en tiempo constante y espacio casi mínimo" (PDF) . SIAM J. Comput . 28 (5): 1627-1640. CiteSeerX 10.1.1.530.9223 . doi : 10.1137 / S0097539795294165 .

[patrascu2008succincter-9] Pătraşcu, M. (2008). "Succínter" (PDF) . Fundamentos de la informática, 2008. FOCS'08. IEEE 49th Annual IEEE Symposium on . págs. 305–313.

[10] Belazzougui, Djamal. "Hash, desplazar y comprimir" (PDF) .

[1]