Autómata de sufijo

En informática , un autómata de sufijo es una estructura de datos eficiente para representar el índice de subcadena de una cadena dada que permite el almacenamiento, procesamiento y recuperación de información comprimida sobre todas sus subcadenas . El sufijo autómata de una cuerda ${\ Displaystyle S}$ es el grafo acíclico dirigido más pequeño con un vértice inicial dedicado y un conjunto de vértices "finales", de modo que las rutas desde el vértice inicial hasta los vértices finales representan los sufijos de la cadena.

Autómata de sufijo

Tipo

Índice de subcadena

Inventado

1983

Inventado por

Anselm Blumer; Janet Blumer; Andrzej Ehrenfeucht ; David Haussler ; Ross McConnell

Complejidad del tiempo en notación O grande

Algoritmo		Promedio	Peor de los casos
Espacio		${\ Displaystyle O (n)}$	${\ Displaystyle O (n)}$

En términos de la teoría de autómatas , un autómata de sufijo es el autómata finito determinista parcial mínimo que reconoce el conjunto de sufijos de una cadena dada. ${\ Displaystyle S = s_ {1} s_ {2} \ dots s_ {n}}$ . El gráfico de estado de un autómata de sufijo se denomina gráfico de palabra acíclico dirigido (DAWG), un término que a veces también se utiliza para cualquier autómata de estado finito acíclico determinista .

Los autómatas de sufijo fueron introducidos en 1983 por un grupo de científicos de la Universidad de Denver y la Universidad de Colorado Boulder . Sugirieron un algoritmo de tiempo lineal en línea para su construcción y mostraron que el sufijo autómata de una cadena ${\ Displaystyle S}$ tener una longitud de al menos dos caracteres tiene como máximo ${\ textstyle 2 | S | -1}$ estados y como máximo ${\ textstyle 3 | S | -4}$ transiciones. Otros trabajos han mostrado una estrecha conexión entre autómatas de sufijos y árboles de sufijos , y han delineado varias generalizaciones de autómatas de sufijos, como el autómata de sufijos compactado obtenido por compresión de nodos con un solo arco saliente.

Los autómatas de sufijo brindan soluciones eficientes a problemas como la búsqueda de subcadenas y el cálculo de la subcadena común más grande de dos o más cadenas.

Historia

Anselm Blumer con un dibujo de CDAWG generalizado para cadenas ababc y abcab

El concepto de autómata de sufijo fue introducido en 1983 ^[1] por un grupo de científicos de la Universidad de Denver y la Universidad de Colorado Boulder, formado por Anselm Blumer, Janet Blumer, Andrzej Ehrenfeucht , David Haussler y Ross McConnell, aunque se habían estudiado conceptos similares anteriormente. junto a árboles de sufijo en las obras de Peter Weiner, ^[2] Vaughan Pratt ^[3] y Anatol Slissenko . ^[4] En su trabajo inicial, Blumer et al . mostró un sufijo autómata construido para la cuerda ${\ Displaystyle S}$ de longitud mayor que ${\ Displaystyle 1}$ tiene como máximo ${\ Displaystyle 2 | S | -1}$ estados y como máximo ${\ Displaystyle 3 | S | -4}$ transiciones, y sugirió un algoritmo lineal para la construcción de autómatas. ^[5]

En 1983, Mu-Tian Chen y Joel Seiferas demostraron de forma independiente que el algoritmo de construcción de árbol de sufijos de Weiner de 1973 ^[2] mientras construía un árbol de sufijos de la cadena ${\ Displaystyle S}$ construye un sufijo autómata de la cadena invertida ${\ textstyle S ^ {R}}$ como estructura auxiliar. ^[6] En 1987, Blumer et al . aplicó la técnica de compresión utilizada en árboles de sufijos a un autómata de sufijo e inventó el autómata de sufijo compactado, que también se denomina gráfico de palabra acíclica dirigida compactada (CDAWG). ^[7] En 1997, Maxime Crochemore y Renaud Vérin desarrollaron un algoritmo lineal para la construcción directa de CDAWG. ^[1] En 2001, Shunsuke Inenaga et al . desarrolló un algoritmo para la construcción de CDAWG para un conjunto de palabras dadas por un trie . ^[8]

Definiciones

Por lo general, cuando se habla de autómatas de sufijo y conceptos relacionados, se utilizan algunas nociones de la teoría del lenguaje formal y la teoría de autómatas , en particular: ^[9]

"Alfabeto" es un conjunto finito ${\ Displaystyle \ Sigma}$ que se usa para construir palabras. Sus elementos se denominan "personajes";
"Palabra" es una secuencia finita de caracteres ${\ Displaystyle \ omega = \ omega _ {1} \ omega _ {2} \ dots \ omega _ {n}}$ . "Longitud" de la palabra ${\ Displaystyle \ omega}$ se denota como ${\ Displaystyle | \ omega | = n}$ ;
" Lenguaje formal " es un conjunto de palabras sobre un alfabeto dado;
"El idioma de todas las palabras" se indica como ${\ Displaystyle \ Sigma ^ {*}}$ (donde el carácter "*" representa la estrella de Kleene ), "palabra vacía" (la palabra de longitud cero) se indica mediante el carácter ${\ Displaystyle \ varepsilon}$ ;
" Concatenación de palabras" ${\ Displaystyle \ alpha = \ alpha _ {1} \ alpha _ {2} \ dots \ alpha _ {n}}$ y ${\ Displaystyle \ beta = \ beta _ {1} \ beta _ {2} \ dots \ beta _ {m}}$ se denota como ${\ Displaystyle \ alpha \ cdot \ beta}$ o ${\ Displaystyle \ alpha \ beta}$ y corresponde a la palabra obtenida escribiendo ${\ Displaystyle \ beta}$ a la derecha de ${\ Displaystyle \ alpha}$ , es decir, ${\ Displaystyle \ alpha \ beta = \ alpha _ {1} \ alpha _ {2} \ dots \ alpha _ {n} \ beta _ {1} \ beta _ {2} \ dots \ beta _ {m}}$ ;
"Concatenación de idiomas" ${\ Displaystyle A}$ y ${\ Displaystyle B}$ se denota como ${\ Displaystyle A \ cdot B}$ o ${\ Displaystyle AB}$ y corresponde al conjunto de concatenaciones por pares ${\ Displaystyle AB = \ {\ alpha \ beta: \ alpha \ in A, \ beta \ in B \}}$ ;
Si la palabra ${\ Displaystyle \ omega \ in \ Sigma ^ {*}}$ puede representarse como ${\ Displaystyle \ omega = \ alpha \ gamma \ beta}$ , dónde ${\ Displaystyle \ alpha, \ beta, \ gamma \ in \ Sigma ^ {*}}$ , luego palabras ${\ Displaystyle \ alpha}$ , ${\ Displaystyle \ beta}$ y ${\ Displaystyle \ gamma}$ se denominan "prefijo", "sufijo" y " subpalabra " (subcadena) de la palabra ${\ Displaystyle \ omega}$ correspondientemente;
Si ${\ Displaystyle T_ {l} T_ {l + 1} \ dots T_ {r} = S}$ luego ${\ Displaystyle S}$ se dice que "ocurre" en ${\ Displaystyle T}$ como una subpalabra. Aquí ${\ Displaystyle l}$ y ${\ Displaystyle r}$ se llaman posiciones izquierda y derecha de ocurrencia de ${\ Displaystyle S}$ en ${\ Displaystyle T}$ correspondientemente.

Estructura de autómata

Formalmente, el autómata finito determinista está determinado por 5-tupla ${\ Displaystyle {\ mathcal {A}} = (\ Sigma, Q, q_ {0}, F, \ delta)}$ , donde: ^[10]

${\ Displaystyle \ Sigma}$ es un "alfabeto" que se utiliza para construir palabras,
${\ displaystyle Q}$ es un conjunto de " estados " de autómatas ,
${\ Displaystyle q_ {0} \ in Q}$ es un estado "inicial" de autómata,
${\ Displaystyle F \ subconjunto Q}$ es un conjunto de estados "finales" de autómata,
${\ Displaystyle \ delta: Q \ times \ Sigma \ mapsto Q}$ es una función de "transición" parcial del autómata, tal que ${\ Displaystyle \ delta (q, \ sigma)}$ por ${\ Displaystyle q \ in Q}$ y ${\ Displaystyle \ sigma \ in \ Sigma}$ no está definido o define una transición de ${\ Displaystyle q}$ sobre el personaje ${\ Displaystyle \ sigma}$ .

Más comúnmente, el autómata finito determinista se representa como un gráfico dirigido ("diagrama") tal que: ^[10]

El conjunto de vértices del gráfico corresponde al estado de los estados ${\ displaystyle Q}$ ,
El gráfico tiene un vértice marcado específico correspondiente al estado inicial ${\ Displaystyle q_ {0}}$ ,
El gráfico tiene varios vértices marcados que corresponden al conjunto de estados finales ${\ Displaystyle F}$ ,
El conjunto de arcos del gráfico corresponde al conjunto de transiciones ${\ Displaystyle \ delta}$ ,
Específicamente, cada transición ${\ estilo de texto \ delta (q_ {1}, \ sigma) = q_ {2}}$ está representado por un arco desde ${\ Displaystyle q_ {1}}$ a ${\ Displaystyle q_ {2}}$ marcado con el personaje ${\ Displaystyle \ sigma}$ . Esta transición también se puede denotar como ${\ textstyle q_ {1} {\ begin {smallmatrix} {\ sigma} \\ [- 5pt] {\ longrightarrow} \ end {smallmatrix}} q_ {2}}$ .

En términos de su diagrama, el autómata reconoce la palabra ${\ Displaystyle \ omega = \ omega _ {1} \ omega _ {2} \ dots \ omega _ {m}}$ solo si hay un camino desde el vértice inicial ${\ Displaystyle q_ {0}}$ a algún vértice final ${\ Displaystyle q \ in F}$ tal que la concatenación de caracteres en este camino forma ${\ Displaystyle \ omega}$ . El conjunto de palabras reconocidas por un autómata forma un lenguaje que está configurado para ser reconocido por el autómata. En estos términos, el lenguaje reconocido por un sufijo autómata de ${\ Displaystyle S}$ es el idioma de sus sufijos (posiblemente vacíos). ^[9]

Estados de autómata

"Contexto correcto" de la palabra ${\ Displaystyle \ omega}$ con respecto al lenguaje ${\ Displaystyle L}$ es un conjunto ${\ Displaystyle [\ omega] _ {R} = \ {\ alpha: \ omega \ alpha \ in L \}}$ eso es un conjunto de palabras ${\ Displaystyle \ alpha}$ tal que su concatenación con ${\ Displaystyle \ omega}$ forma una palabra de ${\ Displaystyle L}$ . Los contextos correctos inducen una relación de equivalencia natural ${\ Displaystyle [\ alpha] _ {R} = [\ beta] _ {R}}$ en el conjunto de todas las palabras. Si el idioma ${\ Displaystyle L}$ es reconocido por algún autómata finito determinista, existe un autómata único hasta isomorfismo que reconoce el mismo lenguaje y tiene el mínimo número posible de estados. Tal autómata se llama autómata mínimo para el lenguaje dado. ${\ Displaystyle L}$ . El teorema de Myhill-Nerode le permite definirlo explícitamente en términos de contextos correctos: ^[11]^[12]

Teorema : autómata mínimo que reconoce el lenguaje ${\ Displaystyle L}$ sobre el alfabeto ${\ Displaystyle \ Sigma}$ puede definirse explícitamente de la siguiente manera:

Alfabeto ${\ Displaystyle \ Sigma}$ Se mantiene igual,
Estados ${\ displaystyle Q}$ corresponder a contextos correctos ${\ Displaystyle [\ omega] _ {R}}$ de todas las palabras posibles ${\ Displaystyle \ omega \ in \ Sigma ^ {*}}$ ,
Estado inicial ${\ Displaystyle q_ {0}}$ corresponde al contexto correcto de la palabra vacía ${\ displaystyle [\ varepsilon] _ {R}}$ ,
Estados finales ${\ Displaystyle F}$ corresponder a contextos correctos ${\ Displaystyle [\ omega] _ {R}}$ de palabras de ${\ Displaystyle \ omega \ in L}$ ,
Transiciones ${\ Displaystyle \ delta}$ son dadas por ${\ displaystyle [\ omega] _ {R} {\ begin {smallmatrix} {\ sigma} \\ [- 5pt] {\ longrightarrow} \ end {smallmatrix}} [\ omega \ sigma] _ {R}}$ , dónde ${\ Displaystyle \ omega \ in \ Sigma ^ {*}}$ y ${\ Displaystyle \ sigma \ in \ Sigma}$ .

En estos términos, un "autómata de sufijo" es el autómata finito determinista mínimo que reconoce el lenguaje de los sufijos de la palabra ${\ Displaystyle S = s_ {1} s_ {2} \ dots s_ {n}}$ . El contexto correcto de la palabra ${\ Displaystyle \ omega}$ con respecto a este idioma consta de palabras ${\ Displaystyle \ alpha}$ , tal que ${\ Displaystyle \ omega \ alpha}$ es un sufijo de ${\ Displaystyle S}$ . Permite formular el siguiente lema definiendo una biyección entre el contexto correcto de la palabra y el conjunto de posiciones correctas de sus ocurrencias en ${\ Displaystyle S}$ : ^[13]^[14]

Teorema - Sea ${\ Displaystyle endpos (\ omega) = \ {r: \ omega = s_ {l} \ dots s_ {r} \}}$ ser el conjunto de posiciones correctas de ocurrencias de ${\ Displaystyle \ omega}$ en ${\ Displaystyle S}$ .

Hay una biyección siguiente entre ${\ displaystyle endpos (\ omega)}$ y ${\ Displaystyle [\ omega] _ {R}}$ :

Si ${\ displaystyle x \ in endpos (\ omega)}$ , luego ${\ Displaystyle s_ {x + 1} s_ {x + 2} \ dots s_ {n} \ in [\ omega] _ {R}}$ ;
Si ${\ Displaystyle \ alpha \ en [\ omega] _ {R}}$ , luego ${\ Displaystyle n- \ vert \ alpha \ vert \ in endpos (\ omega)}$ .

Por ejemplo, para la palabra ${\ Displaystyle S = abacaba}$ y su subpalabra ${\ Displaystyle \ omega = ab}$ , se mantiene ${\ displaystyle endpos (ab) = \ {2,6 \}}$ y ${\ displaystyle [ab] _ {R} = \ {a, acaba \}}$ . Informalmente ${\ Displaystyle [ab] _ {R}}$ está formado por palabras que siguen a apariciones de ${\ displaystyle ab}$ hasta el final de ${\ Displaystyle S}$ y ${\ displaystyle endpos (ab)}$ está formado por las posiciones correctas de esas ocurrencias. En este ejemplo, el elemento ${\ displaystyle x = 2 \ in endpos (ab)}$ se corresponde con la palabra ${\ Displaystyle s_ {3} s_ {4} s_ {5} s_ {6} s_ {7} = acaba \ in [ab] _ {R}}$ mientras la palabra ${\ Displaystyle a \ in [ab] _ {R}}$ se corresponde con el elemento ${\ displaystyle 7- | a | = 6 \ in endpos (ab)}$ .

Implica varias propiedades estructurales de los estados de autómatas sufijos. Dejar ${\ Displaystyle | \ alpha | \ leq | \ beta |}$ , luego: ^[14]

Si ${\ Displaystyle [\ alpha] _ {R}}$ y ${\ Displaystyle [\ beta] _ {R}}$ tener al menos un elemento común ${\ Displaystyle x}$ , luego ${\ displaystyle endpos (\ alpha)}$ y ${\ displaystyle endpos (\ beta)}$ tienen un elemento común también. Eso implica ${\ Displaystyle \ alpha}$ es un sufijo de ${\ Displaystyle \ beta}$ y por lo tanto ${\ displaystyle endpos (\ beta) \ subset endpos (\ alpha)}$ y ${\ Displaystyle [\ beta] _ {R} \ subconjunto [\ alpha] _ {R}}$ . En el ejemplo mencionado anteriormente, ${\ Displaystyle a \ in [ab] _ {R} \ cap [cab] _ {R}}$ , entonces ${\ displaystyle ab}$ es un sufijo de ${\ displaystyle cab}$ y por lo tanto ${\ displaystyle [cab] _ {R} = \ {a \} \ subconjunto \ {a, acaba \} = [ab] _ {R}}$ y ${\ displaystyle endpos (cab) = \ {6 \} \ subset \ {2,6 \} = endpos (ab)}$ ;
Si ${\ Displaystyle [\ alpha] _ {R} = [\ beta] _ {R}}$ , luego ${\ displaystyle endpos (\ alpha) = endpos (\ beta)}$ , por lo tanto ${\ Displaystyle \ alpha}$ ocurre en ${\ Displaystyle S}$ solo como un sufijo de ${\ Displaystyle \ beta}$ . Por ejemplo, para ${\ Displaystyle \ alpha = b}$ y ${\ Displaystyle \ beta = ab}$ sostiene eso ${\ displaystyle [b] _ {R} = [ab] _ {R} = \ {a, acaba \}}$ y ${\ displaystyle endpos (b) = endpos (ab) = \ {2,6 \}}$ ;
Si ${\ Displaystyle [\ alpha] _ {R} = [\ beta] _ {R}}$ y ${\ Displaystyle \ gamma}$ es un sufijo de ${\ Displaystyle \ beta}$ tal que ${\ Displaystyle | \ alpha | \ leq | \ gamma | \ leq | \ beta |}$ , luego ${\ Displaystyle [\ alpha] _ {R} = [\ gamma] _ {R} = [\ beta] _ {R}}$ . En el ejemplo anterior ${\ Displaystyle [c] _ {R} = [bac] _ {R} = \ {aba \}}$ y es válido para el sufijo "intermedio" ${\ Displaystyle \ gamma = ac}$ que ${\ Displaystyle [ac] _ {R} = \ {aba \}}$ .

Cualquier estado ${\ Displaystyle q = [\ alpha] _ {R}}$ del sufijo autómata reconoce una cadena continua de sufijos anidados de la palabra más larga reconocida por este estado. ^[14]

"Extensión izquierda" ${\ Displaystyle {\ overset {\ scriptstyle {\ leftarrow}} {\ gamma}}}$ de la cuerda ${\ Displaystyle \ gamma}$ es la cuerda más larga ${\ Displaystyle \ omega}$ que tiene el mismo contexto correcto que ${\ Displaystyle \ gamma}$ . Largo ${\ Displaystyle | {\ overset {\ scriptstyle {\ leftarrow}} {\ gamma}} |}$ de la cuerda más larga reconocida por ${\ Displaystyle q = [\ gamma] _ {R}}$ se denota por ${\ Displaystyle len (q)}$ . Tiene: ^[15]

Teorema - Extensión izquierda de ${\ Displaystyle \ gamma}$ puede representarse como ${\ displaystyle {\ overleftarrow {\ gamma}} = \ beta \ gamma}$ , dónde ${\ Displaystyle \ beta}$ es la palabra más larga tal que cualquier ocurrencia de ${\ Displaystyle \ gamma}$ en ${\ Displaystyle S}$ está precedido por ${\ Displaystyle \ beta}$ .

"Enlace de sufijo" ${\ enlace de estilo de pantalla (q)}$ del Estado ${\ Displaystyle q = [\ alpha] _ {R}}$ es el puntero al estado ${\ Displaystyle p}$ que contiene el sufijo más grande de ${\ Displaystyle \ alpha}$ que no es reconocido por ${\ Displaystyle q}$ .

En estos términos se puede decir ${\ Displaystyle q = [\ alpha] _ {R}}$ reconoce exactamente todos los sufijos de ${\ displaystyle {\ overset {\ scriptstyle {\ leftarrow}} {\ alpha}}}$ eso es más largo que ${\ displaystyle len (enlace (q))}$ y no más de ${\ Displaystyle len (q)}$ . También contiene: ^[15]

Teorema : los enlaces de sufijo forman un árbol ${\ Displaystyle {\ mathcal {T}} (V, E)}$ que se puede definir explícitamente de la siguiente manera:

Vértices ${\ Displaystyle V}$ del árbol corresponden a las extensiones izquierdas ${\ displaystyle {\ overleftarrow {\ omega}}}$ de todo ${\ Displaystyle S}$ subcadenas,
Bordes ${\ Displaystyle E}$ del árbol conectan pares de vértices ${\ displaystyle ({\ overleftarrow {\ omega}}, {\ overleftarrow {\ alpha \ omega}})}$ , tal que ${\ Displaystyle \ alpha \ in \ Sigma}$ y ${\ displaystyle {\ overleftarrow {\ omega}} \ neq {\ overleftarrow {\ alpha \ omega}}}$ .

Conexión con árboles de sufijos

Relación del sufijo trie, sufijo árbol, DAWG y CDAWG

Un " árbol de prefijos " (o "trie") es un árbol dirigido enraizado en el que los arcos están marcados por caracteres de tal manera que no hay vértices ${\ Displaystyle v}$ de tal árbol tiene dos arcos salientes marcados con el mismo carácter. Algunos vértices en trie están marcados como finales. Se dice que Trie reconoce un conjunto de palabras definidas por caminos desde su raíz hasta los vértices finales. De esta manera, los árboles de prefijos son un tipo especial de autómatas finitos deterministas si percibe su raíz como un vértice inicial. ^[16] El "sufijo trie" de la palabra ${\ Displaystyle S}$ es un árbol de prefijos que reconoce un conjunto de sus sufijos. "Un árbol de sufijos " es un árbol obtenido a partir de un sufijo trie mediante el procedimiento de compactación, durante el cual los bordes consecuentes se fusionan si el grado del vértice entre ellos es igual a dos. ^[15]

Por su definición, un autómata de sufijo se puede obtener mediante la minimización del sufijo trie. Se puede demostrar que un autómata de sufijo compactado se obtiene mediante la minimización del árbol de sufijo (si se supone que cada cadena en el borde del árbol de sufijo es un carácter sólido del alfabeto) y la compactación del autómata de sufijo. ^[17] Además de esta conexión entre el árbol de sufijos y el autómata de sufijo de la misma cadena, también existe una conexión entre el autómata de sufijo de la cadena ${\ Displaystyle S = s_ {1} s_ {2} \ dots s_ {n}}$ y el árbol de sufijos de la cadena invertida ${\ Displaystyle S ^ {R} = s_ {n} s_ {n-1} \ dots s_ {1}}$ . ^[18]

De manera similar a los contextos correctos, uno puede introducir "contextos izquierdos" ${\ Displaystyle [\ omega] _ {L} = \ {\ beta \ in \ Sigma ^ {*}: \ beta \ omega \ in L \}}$ , "extensiones derechas" ${\ displaystyle {\ overset {\ scriptstyle {\ rightarrow}} {\ omega ~}}}$ correspondiente a la cadena más larga que tiene el mismo contexto izquierdo que ${\ Displaystyle \ omega}$ y la relación de equivalencia ${\ displaystyle [\ alpha] _ {L} = [\ beta] _ {L}}$ . Si uno considera extensiones correctas con respecto al idioma ${\ Displaystyle L}$ de "prefijos" de la cadena ${\ Displaystyle S}$ se puede obtener: ^[15]

Teorema - Sufijo árbol de la cuerda ${\ Displaystyle S}$ puede definirse explícitamente de la siguiente manera:

Vértices ${\ Displaystyle V}$ del árbol corresponden a las extensiones derechas ${\ displaystyle {\ overrightarrow {\ omega}}}$ de todo ${\ Displaystyle S}$ subcadenas,
Bordes ${\ Displaystyle E}$ corresponden a trillizos ${\ displaystyle ({\ overrightarrow {\ omega}}, x \ alpha, {\ overrightarrow {\ omega x}})}$ tal que ${\ Displaystyle x \ in \ Sigma}$ y ${\ displaystyle {\ overrightarrow {\ omega x}} = {\ overrightarrow {\ omega}} x \ alpha}$ .

Aquí triplete ${\ Displaystyle (v_ {1}, \ omega, v_ {2}) \ in E}$ significa que hay una ventaja de ${\ Displaystyle v_ {1}}$ a ${\ Displaystyle v_ {2}}$ con la cuerda ${\ Displaystyle \ omega}$ escrito en él

, que implica el árbol de enlaces de sufijo de la cadena ${\ Displaystyle S}$ y el árbol del sufijo de la cuerda ${\ Displaystyle S ^ {R}}$ son isomorfos: ^[18]

Estructuras de sufijo de las palabras "abbcbc" y "cbcbba"
Sufijo autómata de la palabra "abbcbc" Sufijo trie, árbol de sufijos y CDAWG de la palabra "abbcbc" Árbol de sufijo de la palabra "cbcbba" (árbol de enlace de sufijo de la palabra "abbcbc")

De manera similar al caso de las extensiones izquierdas, el siguiente lema es válido para las extensiones derechas: ^[15]

Teorema : extensión derecha de la cuerda ${\ Displaystyle \ gamma}$ puede representarse como ${\ displaystyle {\ overrightarrow {\ gamma}} = \ gamma \ alpha}$ , dónde ${\ Displaystyle \ alpha}$ es la palabra más larga, de modo que cada aparición de ${\ Displaystyle \ gamma}$ en ${\ Displaystyle S}$ es sucedido por ${\ Displaystyle \ beta}$ .

Tamaño

Un autómata sufijo de la cuerda ${\ Displaystyle S}$ de longitud ${\ Displaystyle n> 1}$ tiene como máximo ${\ Displaystyle 2n-1}$ estados y como máximo ${\ Displaystyle 3n-4}$ transiciones. Estos límites se alcanzan en cadenas ${\ Displaystyle abb \ dots bb = ab ^ {n-1}}$ y ${\ Displaystyle abb \ dots bc = ab ^ {n-2} c}$ correspondientemente. ^[13] Esto puede formularse de una manera más estricta como ${\ Displaystyle | \ delta | \ leq | Q | + n-2}$ dónde ${\ Displaystyle | \ delta |}$ y ${\ Displaystyle | Q |}$ son los números de transiciones y estados en el autómata correspondientemente. ^[14]

Autómatas de sufijo máximo
Sufijo autómata de ${\ Displaystyle ab ^ {n-1}}$ Sufijo autómata de ${\ Displaystyle ab ^ {n-2} c}$

Construcción

Inicialmente, el autómata solo consta de un solo estado correspondiente a la palabra vacía, luego los caracteres de la cadena se agregan uno por uno y el autómata se reconstruye en cada paso de forma incremental. ^[19]

Actualizaciones de estado

Después de agregar un nuevo carácter a la cadena, se modifican algunas clases de equivalencia. Dejar ${\ displaystyle [\ alpha] _ {R _ {\ omega}}}$ ser el contexto correcto de ${\ Displaystyle \ alpha}$ con respecto a la lengua de ${\ Displaystyle \ omega}$ sufijos. Entonces la transición de ${\ displaystyle [\ alpha] _ {R _ {\ omega}}}$ a ${\ displaystyle [\ alpha] _ {R _ {\ omega x}}}$ después ${\ Displaystyle x}$ se adjunta a ${\ Displaystyle \ omega}$ está definido por el lema: ^[14]

Teorema - Sea ${\ Displaystyle \ alpha, \ omega \ in \ Sigma ^ {*}}$ se acaben algunas palabras ${\ Displaystyle \ Sigma}$ y ${\ Displaystyle x \ in \ Sigma}$ ser algún personaje de este alfabeto. Entonces hay una siguiente correspondencia entre ${\ displaystyle [\ alpha] _ {R _ {\ omega}}}$ y ${\ displaystyle [\ alpha] _ {R _ {\ omega x}}}$ :

${\ Displaystyle [\ alpha] _ {R _ {\ omega x}} = [\ alpha] _ {R _ {\ omega}} x \ cup \ {\ varepsilon \}}$ Si ${\ Displaystyle \ alpha}$ es un sufijo de ${\ Displaystyle \ omega x}$ ;
${\ Displaystyle [\ alpha] _ {R _ {\ omega x}} = [\ alpha] _ {R _ {\ omega}} x}$ de lo contrario.

Después de agregar ${\ Displaystyle x}$ a la palabra actual ${\ Displaystyle \ omega}$ el contexto correcto de ${\ Displaystyle \ alpha}$ puede cambiar significativamente solo si ${\ Displaystyle \ alpha}$ es un sufijo de ${\ Displaystyle \ omega x}$ . Implica relación de equivalencia ${\ Displaystyle \ equiv _ {R _ {\ omega x}}}$ es un refinamiento de ${\ Displaystyle \ equiv _ {R _ {\ omega}}}$ . En otras palabras, si ${\ Displaystyle [\ alpha] _ {R _ {\ omega x}} = [\ beta] _ {R _ {\ omega x}}}$ , luego ${\ Displaystyle [\ alpha] _ {R _ {\ omega}} = [\ beta] _ {R _ {\ omega}}}$ . Después de la adición de un nuevo carácter como máximo dos clases de equivalencia de ${\ Displaystyle \ equiv _ {R _ {\ omega}}}$ se dividirán y cada uno de ellos podrá dividirse en dos clases nuevas como máximo. Primero, la clase de equivalencia correspondiente al contexto derecho vacío siempre se divide en dos clases de equivalencia, una de ellas correspondiente a ${\ Displaystyle \ omega x}$ sí mismo y teniendo ${\ Displaystyle \ {\ varepsilon \}}$ como un contexto adecuado. Esta nueva clase de equivalencia contiene exactamente ${\ Displaystyle \ omega x}$ y todos sus sufijos que no ocurrieron en ${\ Displaystyle \ omega}$ , ya que el contexto correcto de tales palabras estaba vacío antes y ahora solo contiene palabras vacías. ^[14]

Dada la correspondencia entre los estados del sufijo autómata y los vértices del árbol de sufijos, es posible descubrir el segundo estado que posiblemente se puede dividir después de agregar un nuevo carácter. La transición de ${\ Displaystyle \ omega}$ a ${\ Displaystyle \ omega x}$ corresponde a la transición de ${\ Displaystyle \ omega ^ {R}}$ a ${\ Displaystyle x \ omega ^ {R}}$ en la cuerda invertida. En términos de árboles de sufijos, corresponde a la inserción del nuevo sufijo más largo ${\ Displaystyle x \ omega ^ {R}}$ en el árbol del sufijo de ${\ Displaystyle \ omega ^ {R}}$ . Como máximo se pueden formar dos nuevos vértices después de esta inserción: uno de ellos correspondiente a ${\ Displaystyle x \ omega ^ {R}}$ , mientras que el otro corresponde a su antepasado directo si hubo ramificación. Volviendo al sufijo autómata, significa que el primer estado nuevo reconoce ${\ Displaystyle \ omega x}$ y el segundo (si hay un segundo estado nuevo) es su enlace de sufijo. Puede enunciarse como un lema: ^[14]

Teorema - Sea ${\ Displaystyle \ omega \ in \ Sigma ^ {*}}$ , ${\ Displaystyle x \ in \ Sigma}$ ser algo de palabra y carácter ${\ Displaystyle \ Sigma}$ . También deja ${\ Displaystyle \ alpha}$ ser el sufijo más largo de ${\ Displaystyle \ omega x}$ , que ocurre en ${\ Displaystyle \ omega}$ , y deja ${\ Displaystyle \ beta = {\ overset {\ scriptstyle {\ leftarrow}} {\ alpha}}}$ . Luego, para cualquier subcadena ${\ Displaystyle u, v}$ de ${\ Displaystyle \ omega}$ se mantiene:

Si ${\ Displaystyle [u] _ {R _ {\ omega}} = [v] _ {R _ {\ omega}}}$ y ${\ Displaystyle [u] _ {R _ {\ omega}} \ neq [\ alpha] _ {R _ {\ omega}}}$ , luego ${\ Displaystyle [u] _ {R _ {\ omega x}} = [v] _ {R _ {\ omega x}}}$ ;
Si ${\ Displaystyle [u] _ {R _ {\ omega}} = [\ alpha] _ {R _ {\ omega}}}$ y ${\ Displaystyle \ vert u \ vert \ leq \ vert \ alpha \ vert}$ , luego ${\ Displaystyle [u] _ {R _ {\ omega x}} = [\ alpha] _ {R _ {\ omega x}}}$ ;
Si ${\ Displaystyle [u] _ {R _ {\ omega}} = [\ alpha] _ {R _ {\ omega}}}$ y ${\ Displaystyle \ vert u \ vert> \ vert \ alpha \ vert}$ , luego ${\ Displaystyle [u] _ {R _ {\ omega x}} = [\ beta] _ {R _ {\ omega x}}}$ .

Implica que si ${\ Displaystyle \ alpha = \ beta}$ (por ejemplo, cuando ${\ Displaystyle x}$ no ocurrió en ${\ Displaystyle \ omega}$ en absoluto y ${\ Displaystyle \ alpha = \ beta = \ varepsilon}$ ), solo se divide la clase de equivalencia correspondiente al contexto derecho vacío. ^[14]

Además de los enlaces de sufijos, también es necesario definir los estados finales del autómata. De las propiedades de la estructura se deduce que todos los sufijos de una palabra ${\ Displaystyle \ alpha}$ reconocido por ${\ Displaystyle q = [\ alpha] _ {R}}$ son reconocidos por algún vértice en la ruta del sufijo ${\ Displaystyle (q, link (q), link ^ {2} (q), \ dots)}$ de ${\ Displaystyle q}$ . Es decir, sufijos con una longitud mayor que ${\ displaystyle len (enlace (q))}$ quedarse en cama ${\ Displaystyle q}$ , sufijos con una longitud mayor que ${\ displaystyle len (enlace (enlace (q))}$ pero no mayor que ${\ displaystyle len (enlace (q))}$ quedarse en cama ${\ enlace de estilo de pantalla (q)}$ y así. Por tanto, si el Estado reconociendo ${\ Displaystyle \ omega}$ se denota por ${\ Displaystyle último}$ , entonces todos los estados finales (es decir, reconociendo sufijos de ${\ Displaystyle \ omega}$ ) forman la secuencia ${\ displaystyle (último, enlace (último), enlace ^ {2} (último), \ puntos)}$ . ^[19]

Actualizaciones de enlaces de transiciones y sufijos

Después del personaje ${\ Displaystyle x}$ se adjunta a ${\ Displaystyle \ omega}$ posibles nuevos estados del sufijo autómata son ${\ Displaystyle [\ omega x] _ {R _ {\ omega x}}}$ y ${\ displaystyle [\ alpha] _ {R _ {\ omega x}}}$ . Vínculo de sufijo de ${\ Displaystyle [\ omega x] _ {R _ {\ omega x}}}$ va a ${\ displaystyle [\ alpha] _ {R _ {\ omega x}}}$ y de ${\ displaystyle [\ alpha] _ {R _ {\ omega x}}}$ va a ${\ enlace de estilo de pantalla ([\ alpha] _ {R _ {\ omega}})}$ . Palabras de ${\ Displaystyle [\ omega x] _ {R _ {\ omega x}}}$ ocurre en ${\ Displaystyle \ omega x}$ sólo como sus sufijos, por lo tanto, no debería haber transiciones en absoluto de ${\ Displaystyle [\ omega x] _ {R _ {\ omega x}}}$ mientras que las transiciones deben ir de sufijos de ${\ Displaystyle \ omega}$ tener longitud al menos ${\ Displaystyle \ alpha}$ y estar marcado con el personaje ${\ Displaystyle x}$ . Expresar ${\ displaystyle [\ alpha] _ {R _ {\ omega x}}}$ está formado por un subconjunto de ${\ displaystyle [\ alpha] _ {R _ {\ omega}}}$ , por lo tanto, las transiciones de ${\ displaystyle [\ alpha] _ {R _ {\ omega x}}}$ debe ser igual que desde ${\ displaystyle [\ alpha] _ {R _ {\ omega}}}$ . Mientras tanto, las transiciones que conducen a ${\ displaystyle [\ alpha] _ {R _ {\ omega x}}}$ debe ir de sufijos de ${\ Displaystyle \ omega}$ tener una longitud menor que ${\ Displaystyle | \ alpha |}$ y al menos ${\ displaystyle len (enlace ([\ alpha] _ {R _ {\ omega}}))}$ , ya que tales transiciones han llevado a ${\ displaystyle [\ alpha] _ {R _ {\ omega}}}$ antes y correspondía a la parte secesionada de este estado. Los estados correspondientes a estos sufijos pueden determinarse mediante el recorrido de la ruta de enlace del sufijo para ${\ Displaystyle [\ omega] _ {R _ {\ omega}}}$ . ^[19]

Construcción del sufijo autómata para la palabra abbcbc

**∅ → a**

Después de agregar el primer carácter, solo se crea un estado en el sufijo autómata.	De manera similar, solo se agrega una hoja al árbol de sufijos.

**a → ab**

Las nuevas transiciones se extraen de todos los estados finales anteriores, ya que b no apareció antes.	Por la misma razón, se agrega otra hoja a la raíz del árbol de sufijos.

**ab → abb**

El estado 2 reconoce las palabras ab y b , pero solo b es el nuevo sufijo, por lo tanto, esta palabra se separa en el estado 4.	En el árbol de sufijos corresponde a la división del borde que conduce al vértice 2.

**abb → abbc**

El carácter c aparece por primera vez, por lo que las transiciones se extraen de todos los estados finales anteriores.	El árbol de sufijo de la cuerda inversa tiene otra hoja agregada a la raíz.

**abbc → abbcb**

El estado 4 consta de la única palabra b , que es un sufijo, por lo que el estado no está dividido.	En consecuencia, se cuelga una hoja nueva en el vértice 4 del árbol de sufijos.

**abbcb → abbcbc**

El estado 5 reconoce las palabras abbc , bbc , bc y c , pero solo los dos últimos son sufijos de una nueva palabra, por lo que se separan en el nuevo estado 8.	En consecuencia, el borde que conduce al vértice 5 se divide y el vértice 8 se coloca en el medio del borde.

Algoritmo de construcción

Los resultados teóricos anteriores conducen al siguiente algoritmo que toma carácter ${\ Displaystyle x}$ y reconstruye el sufijo autómata de ${\ Displaystyle \ omega}$ en el sufijo autómata de ${\ Displaystyle \ omega x}$ : ^[19]

El estado correspondiente a la palabra ${\ Displaystyle \ omega}$ se mantiene como ${\ Displaystyle último}$ ;
Después ${\ Displaystyle x}$ se adjunta, valor anterior de ${\ Displaystyle último}$ se almacena en la variable ${\ Displaystyle p}$ y ${\ Displaystyle último}$ se reasigna al nuevo estado correspondiente a ${\ Displaystyle \ omega x}$ ;
Estados correspondientes a sufijos de ${\ Displaystyle \ omega}$ se actualizan con transiciones a ${\ Displaystyle último}$ . Para hacer esto, uno debe pasar por ${\ Displaystyle p, enlace (p), enlace ^ {2} (p), \ dots}$ , hasta que haya un estado que ya tenga una transición por ${\ Displaystyle x}$ ;
Una vez finalizado el ciclo antes mencionado, existen 3 casos:
1. Si ninguno de los estados en la ruta del sufijo tuvo una transición por ${\ Displaystyle x}$ , luego ${\ Displaystyle x}$ nunca ocurrió en ${\ Displaystyle \ omega}$ antes y el enlace de sufijo de ${\ Displaystyle último}$ debería conducir a ${\ Displaystyle q_ {0}}$ ;
2. Si la transición por ${\ Displaystyle x}$ se encuentra y conduce desde el estado ${\ Displaystyle p}$ al Estado ${\ Displaystyle q}$ , tal que ${\ Displaystyle len (p) + 1 = len (q)}$ , luego ${\ Displaystyle q}$ no tiene que dividirse y es un enlace de sufijo de ${\ Displaystyle último}$ ;
3. Si se encuentra la transición pero ${\ Displaystyle len (q)> len (p) +1}$ , luego palabras de ${\ Displaystyle q}$ tener longitud como máximo ${\ displaystyle len (p) +1}$ debe segregarse en un nuevo estado "clon" ${\ displaystyle cl}$ ;
Si el paso anterior se concluyó con la creación de ${\ displaystyle cl}$ , las transiciones de él y su enlace de sufijo deben copiar las de ${\ Displaystyle q}$ , al mismo tiempo ${\ displaystyle cl}$ se asigna como enlace de sufijo común de ambos ${\ Displaystyle q}$ y ${\ Displaystyle último}$ ;
Transiciones que han llevado a ${\ Displaystyle q}$ antes, pero correspondía a palabras de la longitud como máximo ${\ displaystyle len (p) +1}$ son redirigidos a ${\ displaystyle cl}$ . Para hacer esto, se continúa recorriendo el camino del sufijo de ${\ Displaystyle p}$ hasta que se encuentre el estado tal que la transición por ${\ Displaystyle x}$ de eso no conduce a ${\ Displaystyle q}$ .

Todo el procedimiento se describe mediante el siguiente pseudocódigo: ^[19]

función   $add_letter (x)$  : definir   $p = último$  asignar   $último = new_state ()$  asignar   $len (último) = len (p) + 1$  mientras que   $δ (p, x)$  no está definido: asignar   $δ (p, x) = último, p = enlace (p)$  definir   $q = δ (p, x)$  si   $q = último$  : asignar   $enlace (último) = q 0$   más si   $len (q) = len (p) + 1$  : asignar   $enlace (último) = q$  más : definir   $cl = new_state ()$  asignar   $len (cl) = len (p) + 1$  asignar   $δ (cl) = δ (q), enlace (cl) = enlace (q)$  asignar   $enlace (último) = enlace (q) = cl$  mientras   $δ (p, x) = q$  : asignar   $δ (p, x) = cl, p = enlace (p)$

Aquí ${\ Displaystyle q_ {0}}$ es el estado inicial del autómata y ${\ Displaystyle nuevo \ _state ()}$ es una función que le crea un nuevo estado. Es asumido ${\ Displaystyle último}$ , ${\ displaystyle len}$ , ${\ enlace de estilo de pantalla}$ y ${\ Displaystyle \ delta}$ se almacenan como variables globales. ^[19]

Complejidad

La complejidad del algoritmo puede variar según la estructura subyacente utilizada para almacenar las transiciones del autómata. Puede implementarse en ${\ Displaystyle O (n \ log | \ Sigma |)}$ con ${\ Displaystyle O (n)}$ sobrecarga de memoria o en ${\ Displaystyle O (n)}$ con ${\ Displaystyle O (n | \ Sigma |)}$ sobrecarga de memoria si se supone que la asignación de memoria se realiza en ${\ Displaystyle O (1)}$ . Para obtener tal complejidad, hay que utilizar los métodos de análisis amortizado . El valor de ${\ displaystyle len (p)}$ se reduce estrictamente con cada iteración del ciclo, mientras que solo puede aumentar hasta en uno después de la primera iteración del ciclo en la siguiente llamada add_letter . Valor global de ${\ displaystyle len (p)}$ nunca excede ${\ Displaystyle n}$ y solo se incrementa en uno entre iteraciones de agregar nuevas letras que sugieren que la complejidad total es, como mucho, también lineal. La linealidad del segundo ciclo se muestra de manera similar. ^[19]

Generalizaciones

El sufijo autómata está estrechamente relacionado con otras estructuras de sufijos e índices de subcadenas . Dado un autómata de sufijo de una cadena específica, uno puede construir su árbol de sufijos a través de compactación y recorrido recursivo en tiempo lineal. ^[20] Transformaciones similares son posibles en ambas direcciones para cambiar entre el sufijo autómata de ${\ Displaystyle S}$ y el árbol del sufijo de la cuerda invertida ${\ Displaystyle S ^ {R}}$ . ^[18] Aparte de esto, se desarrollaron varias generalizaciones para construir un autómata para el conjunto de cadenas dado por trie, ^[8] automatización de sufijo compactado (CDAWG), ^[7] para mantener la estructura del autómata en la ventana deslizante, ^{[21 ]} y construirlo de forma bidireccional, apoyando la inserción de caracteres tanto al principio como al final de la cadena. ^[22]

Autómata sufijo compactado

Como ya se mencionó anteriormente, un autómata de sufijo compactado se obtiene mediante la compactación de un autómata de sufijo regular (eliminando estados que no son finales y tienen exactamente un arco saliente) y la minimización de un árbol de sufijos. De manera similar al autómata de sufijo regular, los estados del autómata de sufijo compactado pueden definirse de manera explícita. Una extensión bidireccional ${\ displaystyle {\ overset {\ scriptstyle {\ longleftrightarrow}} {\ gamma}}}$ de una palabra ${\ Displaystyle \ gamma}$ es la palabra mas larga ${\ Displaystyle \ omega = \ beta \ gamma \ alpha}$ , de modo que cada aparición de ${\ Displaystyle \ gamma}$ en ${\ Displaystyle S}$ está precedido por ${\ Displaystyle \ beta}$ y sucedido por ${\ Displaystyle \ alpha}$ . En términos de extensiones izquierda y derecha, significa que la extensión bidireccional es la extensión izquierda de la extensión derecha o, lo que es equivalente, la extensión derecha de la extensión izquierda, es decir. ${\ textstyle {\ overset {\ scriptstyle \ longleftrightarrow} {\ gamma}} = {\ overset {\ scriptstyle \ leftarrow} {\ overset {\ rightarrow} {\ gamma}}} = {\ overset {\ rightarrow} {\ desbordado {\ scriptstyle \ leftarrow} {\ gamma}}}}$ . En términos de extensiones bidireccionales, el autómata compactado se define de la siguiente manera: ^[15]

Teorema - sufijo autómata compactado de la palabra ${\ Displaystyle S}$ está definido por un par ${\ Displaystyle (V, E)}$ , dónde:

${\ displaystyle V = \ {{\ overleftrightarrow {\ omega}}: \ omega \ in \ Sigma ^ {*} \}}$ es un conjunto de estados autómatas;
${\ displaystyle E = \ {({\ overleftrightarrow {\ omega}}, x \ alpha, {\ overleftrightarrow {\ omega x}}): x \ in \ Sigma, \ alpha \ in \ Sigma ^ {*}, { \ overleftrightarrow {\ omega x}} = {\ overleftrightarrow {\ omega}} x \ alpha \}}$ es un conjunto de transiciones de autómatas.

Las extensiones bidireccionales inducen una relación de equivalencia ${\ textstyle {\ overset {\ scriptstyle \ longleftrightarrow} {\ alpha}} = {\ overset {\ scriptstyle \ longleftrightarrow} {\ beta}}}$ que define el conjunto de palabras reconocidas por el mismo estado de autómata compactado. Esta relación de equivalencia es un cierre transitivo de la relación definida por ${\ textstyle ({\ overset {\ scriptstyle {\ rightarrow}} {\ alpha \,}} = {\ overset {\ scriptstyle {\ rightarrow}} {\ beta \,}}) \ vee ({\ overset {\ scriptstyle {\ leftarrow}} {\ alpha}} = {\ overset {\ scriptstyle {\ leftarrow}} {\ beta}})}$ , que destaca el hecho de que un autómata compactado puede obtenerse pegando ambos vértices de árbol de sufijo equivalentes a través de ${\ displaystyle {\ overset {\ scriptstyle {\ leftarrow}} {\ alpha}} = {\ overset {\ scriptstyle {\ leftarrow}} {\ beta}}}$ relación (minimización del árbol de sufijos) y pegar estados de autómatas de sufijos equivalentes a través de ${\ displaystyle {\ overset {\ scriptstyle {\ rightarrow}} {\ alpha \,}} = {\ overset {\ scriptstyle {\ rightarrow}} {\ beta \,}}}$ relación (compactación del sufijo autómata). ^[23] Si palabras ${\ Displaystyle \ alpha}$ y ${\ Displaystyle \ beta}$ tienen las mismas extensiones correctas y palabras ${\ Displaystyle \ beta}$ y ${\ Displaystyle \ gamma}$ tienen las mismas extensiones izquierdas, luego acumulativamente todas las cadenas ${\ Displaystyle \ alpha}$ , ${\ Displaystyle \ beta}$ y ${\ Displaystyle \ gamma}$ tienen las mismas extensiones bidireccionales. Al mismo tiempo, puede suceder que ni las extensiones izquierda ni derecha de ${\ Displaystyle \ alpha}$ y ${\ Displaystyle \ gamma}$ coincidir. Como ejemplo, uno puede tomar ${\ Displaystyle S = \ beta = ab}$ , ${\ Displaystyle \ alpha = a}$ y ${\ Displaystyle \ gamma = b}$ , cuyas extensiones izquierda y derecha son las siguientes: ${\ displaystyle {\ overset {\ scriptstyle {\ rightarrow}} {\ alpha \,}} = {\ overset {\ scriptstyle {\ rightarrow}} {\ beta \,}} = ab = {\ overset {\ scriptstyle { \ leftarrow}} {\ beta}} = {\ overset {\ scriptstyle {\ leftarrow}} {\ gamma}}}$ , pero ${\ displaystyle {\ overset {\ scriptstyle {\ rightarrow}} {\ gamma \,}} = b}$ y ${\ displaystyle {\ overset {\ scriptstyle {\ leftarrow}} {\ alpha}} = a}$ . Dicho esto, mientras que las relaciones de equivalencia de las extensiones unidireccionales se formaron mediante una cadena continua de prefijos o sufijos anidados, las relaciones de equivalencia de las extensiones bidireccionales son más complejas y lo único que se puede concluir con certeza es que las cadenas con la misma extensión bidireccional son subcadenas de la cadena más larga que tienen la misma extensión bidireccional, pero incluso puede suceder que no tengan ninguna subcadena no vacía en común. El número total de clases de equivalencia para esta relación no excede ${\ Displaystyle n + 1}$ lo que implica que el sufijo autómata compactado de la cuerda tiene una longitud ${\ Displaystyle n}$ tiene como máximo ${\ Displaystyle n + 1}$ estados. La cantidad de transiciones en tal autómata es como máximo ${\ Displaystyle 2n-2}$ . ^[15]

Sufijo autómata de varias cadenas

Considere un conjunto de palabras ${\ Displaystyle T = \ {S_ {1}, S_ {2}, \ dots, S_ {k} \}}$ . Es posible construir una generalización del sufijo autómata que reconozca el lenguaje formado por sufijos de todas las palabras del conjunto. Las restricciones para el número de estados y transiciones en dicho autómata seguirían siendo las mismas que para un autómata de una sola palabra si pones ${\ Displaystyle n = | S_ {1} | + | S_ {2} | + \ dots + | S_ {k} |}$ . ^[23] El algoritmo es similar a la construcción de un autómata de una sola palabra, excepto que en lugar de ${\ Displaystyle último}$ estado, la función add_letter funcionaría con el estado correspondiente a la palabra ${\ Displaystyle \ omega _ {i}}$ asumiendo la transición del conjunto de palabras ${\ Displaystyle \ {\ omega _ {1}, \ dots, \ omega _ {i}, \ dots, \ omega _ {k} \}}$ al set ${\ Displaystyle \ {\ omega _ {1}, \ dots, \ omega _ {i} x, \ dots, \ omega _ {k} \}}$ . ^[24]^[25]

Esta idea se generaliza aún más al caso cuando ${\ Displaystyle T}$ no se da explícitamente sino que se da mediante un árbol de prefijos con ${\ displaystyle Q}$ vértices. Mohri y col . demostró que tal autómata tendría como mucho ${\ Displaystyle 2Q-2}$ y puede construirse en tiempo lineal a partir de su tamaño. Al mismo tiempo, el número de transiciones en dicho autómata puede alcanzar ${\ Displaystyle O (Q | \ Sigma |)}$ , por ejemplo para el conjunto de palabras ${\ Displaystyle T = \ {\ sigma _ {1}, a \ sigma _ {1}, a ^ {2} \ sigma _ {1}, \ dots, a ^ {n} \ sigma _ {1}, a ^ {n} \ sigma _ {2}, \ dots, a ^ {n} \ sigma _ {k} \}}$ sobre el alfabeto ${\ Displaystyle \ Sigma = \ {a, \ sigma _ {1}, \ dots, \ sigma _ {k} \}}$ la longitud total de workds es igual a ${\ textstyle O (n ^ {2} + nk)}$ , el número de vértices en el sufijo correspondiente trie es igual a ${\ Displaystyle O (n + k)}$ y el sufijo autómata correspondiente está formado por ${\ Displaystyle O (n + k)}$ estados y ${\ Displaystyle O (nk)}$ transiciones. El algoritmo sugerido por Mohri repite principalmente el algoritmo genérico para la construcción de autómatas de varias cadenas, pero en lugar de hacer crecer las palabras una por una, atraviesa el trie en un orden de búsqueda de amplitud primero y agrega nuevos caracteres a medida que los encuentra en el recorrido, lo que garantiza amortizaciones complejidad lineal. ^[26]

Ventana deslizante

Algunos algoritmos de compresión , como LZ77 y RLE, pueden beneficiarse del almacenamiento de autómatas de sufijo o una estructura similar no para toda la cadena, sino solo para el ${\ Displaystyle k}$ sus caracteres mientras se actualiza la cadena. Esto se debe a que la compresión de datos suele ser expresivamente grande y ${\ Displaystyle O (n)}$ la memoria es indeseable. En 1985, Janet Blumer desarrolló un algoritmo para mantener un autómata de sufijo en una ventana deslizante de tamaño ${\ Displaystyle k}$ en ${\ Displaystyle O (nk)}$ el peor de los casos y ${\ Displaystyle O (n \ log k)}$ en promedio, asumiendo que los caracteres se distribuyen de manera independiente y uniforme . Ella también mostró ${\ Displaystyle O (nk)}$ La complejidad no puede mejorarse: si se consideran las palabras construidas como una concatenación de varios ${\ Displaystyle (ab) ^ {m} do (ab) ^ {m} d}$ palabras, donde ${\ Displaystyle k = 6m + 2}$ , luego el número de estados para la ventana de tamaño ${\ Displaystyle k}$ cambiaría frecuentemente con saltos de orden ${\ Displaystyle m}$ , que hace que incluso una mejora teórica de ${\ Displaystyle O (nk)}$ para autómatas de sufijo regular imposible. ^[27]

Lo mismo debería ser cierto para el árbol de sufijos porque sus vértices corresponden a los estados del sufijo autómata de la cadena invertida, pero este problema puede resolverse al no almacenar explícitamente cada vértice correspondiente al sufijo de toda la cadena, por lo que solo se almacenan los vértices con en al menos dos bordes salientes. Edward Fiala y Daniel Greene sugirieron una variación del algoritmo de construcción de árboles de sufijos de McCreight para esta tarea en 1989; ^[28] varios años más tarde se obtuvo un resultado similar con la variación del algoritmo de Ukkonen por Jesper Larsson. ^[29]^[30] La existencia de tal algoritmo, para autómatas de sufijos compactados que absorben algunas propiedades tanto de árboles de sufijos como de autómatas de sufijos, fue una cuestión abierta durante mucho tiempo hasta que fue descubierto por Martin Senft y Tomasz Dvorak en 2008, que es imposible si el tamaño del alfabeto es de al menos dos. ^[31]

Una forma de superar este obstáculo es permitir que el ancho de la ventana varíe un poco mientras permanece ${\ Displaystyle O (k)}$ . Puede lograrse mediante un algoritmo aproximado sugerido por Inenaga et al. en 2004. No se garantiza que la ventana para la que se construye el autómata de sufijo en este algoritmo sea de longitud ${\ Displaystyle k}$ pero se garantiza que al menos ${\ Displaystyle k}$ y como mucho ${\ Displaystyle 2k + 1}$ al tiempo que proporciona una complejidad general lineal del algoritmo. ^[32]

Aplicaciones

Sufijo autómata de la cuerda ${\ Displaystyle S}$ puede utilizarse para resolver problemas como: ^[33]^[34]

Contando el número de subcadenas distintas de ${\ Displaystyle S}$ en ${\ Displaystyle O (| S |)}$ en línea,
Encontrar la subcadena más larga de ${\ Displaystyle S}$ ocurriendo al menos dos veces en ${\ Displaystyle O (| S |)}$ ,
Encontrar la subcadena común más larga de ${\ Displaystyle S}$ y ${\ Displaystyle T}$ en ${\ Displaystyle O (| T |)}$ ,
Contando el número de apariciones de ${\ Displaystyle T}$ en ${\ Displaystyle S}$ en ${\ Displaystyle O (| T |)}$ ,
Encontrar todas las apariciones de ${\ Displaystyle T}$ en ${\ Displaystyle S}$ en ${\ Displaystyle O (| T | + k)}$ , dónde ${\ Displaystyle k}$ es el número de ocurrencias.

Se asume aquí que ${\ Displaystyle T}$ se da en la entrada después del sufijo autómata de ${\ Displaystyle S}$ esta construido. ^[33]

Los autómatas de sufijo también se utilizan en la compresión de datos, ^[35] recuperación de música ^[36]^[37] y emparejamiento en secuencias del genoma. ^[38]

Referencias

↑ a b Crochemore, Vérin (1997) , p. 192
↑ a b Weiner (1973)
↑ Pratt (1973)
^ Slisenko (1983)
^ Blumer y col. (1984) , pág. 109
^ Chen, Seiferas (1985) , p. 97
^ a b Blumer y col. (1987) , pág. 578
^ a b Inenaga y col. (2001) , pág. 1
↑ a b Crochemore, Hancart (1997) , págs. 3-6
^ a b Серебряков и др. (2006) , págs. 50 a 54
^ Рубцов (2019) , págs. 89-94
^ Hopcroft, Ullman (1979) , págs. 65-68
^ a b Blumer y col. (1984) , págs. 111-114
↑ a b c d e f g h Crochemore, Hancart (1997) , págs. 27-31
^ a b c d e f g Inenaga et al. (2005) , págs. 159-162
^ Rubinchik, Shur (2018) , págs. 1-2
^ Inenaga y col. (2005) , págs. 156-158
^ a b c Fujishige y col. (2016) , págs. 1-3
↑ a b c d e f g Crochemore, Hancart (1997) , págs. 31-36
^ Паращенко (2007) , págs. 19-22
^ Blumer (1987) , p. 451
^ Inenaga (2003) , p. 1
^ a b Blumer y col. (1987) , págs. 585-588
^ Blumer y col. (1987) , págs. 588-589
^ Blumer y col. (1987) , pág. 593
^ Mohri y col. (2009) , págs. 3558—3560
^ Blumer (1987) , págs. 461-465
^ Fiala, Greene (1989) , p. 490
^ Larsson (1996)
↑ Brodnik, Jekovec (2018) , p. 1
↑ Senft, Dvořák (2008) , p. 109
^ Inenaga y col. (2004)
↑ a b Crochemore, Hancart (1997) , págs. 36-39
^ Crochemore, Hancart (1997) , págs. 39-41
^ Yamamoto y col. (2014) , pág. 675
^ Crochemore y col. (2003) , pág. 211
^ Mohri y col. (2009) , pág. 3553
↑ Faro (2016) , p. 145

Bibliografía

Anselm Cyril Blumer; Janet Blumer; Andrzej Ehrenfeucht ; David Haussler ; Ross McConnell (1984). Construyendo el DFA mínimo para el conjunto de todas las subpalabras de una palabra en línea en tiempo lineal . Coloquio Internacional sobre Autómatas, Lenguajes y Programación . págs. 109-118. doi : 10.1007 / 3-540-13345-3_9 . ISBN 978-3-540-13345-2. Wikidata Q90309073 .
Anselm Cyril Blumer; Janet Blumer; Andrzej Ehrenfeucht ; David Haussler ; Ross McConnell (julio de 1987). "Archivos completos invertidos para una recuperación y un análisis de texto eficaces" . Revista de la ACM . 34 (3): 578–595. CiteSeerX 10.1.1.87.6824 . doi : 10.1145 / 28869.28873 . ISSN 0004-5411 . Wikidata Q90311855 .
Janet Blumer (diciembre de 1987). "¿Cuánto es ese DAWG en la ventana? Un algoritmo de ventana móvil para el gráfico de palabras acíclicas dirigidas" . Revista de algoritmos . 8 (4): 451–469. doi : 10.1016 / 0196-6774 (87) 90045-9 . ISSN 0196-6774 . Wikidata Q90327976 .
Andrej Brodnik; Matevž Jekovec (3 de agosto de 2018). "Árbol de sufijo deslizante" . Algoritmos . 11 (8): 118. doi : 10.3390 / A11080118 . ISSN 1999-4893 . Wikidata Q90431196 .
Mu-Tian Chen; Joel Seiferas (1985). Construcción de árbol de subpalabras eficiente y elegante . Algoritmos combinatorios sobre palabras . págs. 97-107. CiteSeerX 10.1.1.632.4 . doi : 10.1007 / 978-3-642-82456-2_7 . ISBN 978-3-642-82456-2. Wikidata Q90329833 .
Maxime Crochemore ; Christophe Hancart (1997). Autómatas para patrones coincidentes . Manual de lenguajes formales . 2 . págs. 399–462. CiteSeerX 10.1.1.392.8637 . doi : 10.1007 / 978-3-662-07675-0_9 . ISBN 978-3-642-59136-5. Wikidata Q90413384 .
Maxime Crochemore ; Renaud Vérin (1997). En gráficos de palabras acíclicos dirigidos compactos . Estructuras en lógica e informática . Apuntes de conferencias en Ciencias de la Computación . págs. 192–211. CiteSeerX 10.1.1.13.6892 . doi : 10.1007 / 3-540-63246-8_12 . ISBN 978-3-540-69242-3. Wikidata Q90413885 .
Maxime Crochemore ; Costas S. Iliopoulos; Gonzalo Navarro ; Yoan J. Pinzón (2003). Un enfoque de autómata de sufijo de bits paralelos para (δ, γ) -Matching en la recuperación de música . Simposio internacional sobre procesamiento de cadenas y recuperación de información . págs. 211-223. CiteSeerX 10.1.1.8.533 . doi : 10.1007 / 978-3-540-39984-1_16 . ISBN 978-3-540-39984-1. Wikidata Q90414195 .
Vladimir Serebryakov; Maksim Pavlovich Galochkin; Meran Gabibullaevich Furugian; Dmitriy Ruslanovich Gonchar (2006). Теория и реализация языков программирования (PDF) (en ruso). Moscú: MZ Press. ISBN 5-94073-094-9. Wikidata Q90432456 .
Simone Faro (2016). Evaluación y mejora de algoritmos rápidos para el emparejamiento exacto en las secuencias del genoma . Congreso Internacional de Algoritmos para Biología Computacional . Apuntes de conferencias en Ciencias de la Computación . págs. 145-157. doi : 10.1007 / 978-3-319-38827-4_12 . ISBN 978-3-319-38827-4. Wikidata Q90412338 .
Edward R. Fiala; Daniel H. Greene (abril de 1989). "Compresión de datos con ventanas finitas" . Comunicaciones de la ACM . 32 (4): 490–505. doi : 10.1145 / 63334.63341 . ISSN 0001-0782 . Wikidata Q90425560 .
Yuta Fujishige; Yuki Tsujimaru; Shunsuke Inenaga; Hideo Bannai; Masayuki Takeda (2016). Computación DAWG y palabras mínimas ausentes en tiempo lineal para alfabetos enteros (PDF) . Simposio Internacional sobre Fundamentos Matemáticos de la Informática . 58 . págs. 38: 1–38: 14. doi : 10.4230 / LIPICS.MFCS.2016.38 . ISBN 978-3-95977-016-3. ISSN 1868-8969 . Wikidata Q90410044 .
John Edward Hopcroft ; Jeffrey David Ullman (1979). Introducción a la teoría, los lenguajes y la computación de los autómatas (1ª ed.). Massachusetts: Addison-Wesley . ISBN 978-81-7808-347-6. OL 9082218M . Wikidata Q90418603 .
Shunsuke Inenaga (marzo de 2003). "Construcción bidireccional de árboles de sufijo" (PDF) . Revista Nórdica de Computación . 10 (1): 52–67. CiteSeerX 10.1.1.100.8726 . ISSN 1236-6064 . Wikidata Q90335534 .
Shunsuke Inenaga; Hiromasa Hoshino; Ayumi Shinohara; Masayuki Takeda; Setsuo Arikawa; Giancarlo Mauri; Giulio Pavesi (marzo de 2005). "Construcción en línea de gráficos compactos de palabras acíclicas dirigidas" . Matemáticas aplicadas discretas . 146 (2): 156-179. CiteSeerX 10.1.1.1039.6992 . doi : 10.1016 / J.DAM.2004.04.012 . ISSN 0166-218X . Wikidata Q57518591 .
Shunsuke Inenaga; Hiromasa Hoshino; Ayumi Shinohara; Masayuki Takeda; Setsuo Arikawa (2001). "Construcción del CDAWG para un trie" (PDF) . Conferencia de Cuerda de Praga. Actas : 37–48. CiteSeerX 10.1.1.24.2637 . Wikidata Q90341606 .
Shunsuke Inenaga; Ayumi Shinohara; Masayuki Takeda; Setsuo Arikawa (marzo de 2004). "Gráficos compactos de palabras acíclicas dirigidas para una ventana deslizante" . Diario de algoritmos discretos . 2 (1): 33–51. CiteSeerX 10.1.1.101.358 . doi : 10.1016 / S1570-8667 (03) 00064-9 . ISSN 1570-8667 . Wikidata Q90345535 .
N. Jesper Larsson (1996). "Aplicación ampliada de árboles de sufijos a la compresión de datos" . Actas. Conferencia de compresión de datos : 190-199. CiteSeerX 10.1.1.12.8623 . doi : 10.1109 / DCC.1996.488324 . ISSN 2375-0383 . Wikidata Q90427112 .
Mehryar Mohri; Pedro Moreno; Eugene Weinstein (septiembre de 2009). "Algoritmo de construcción de autómatas de sufijo general y límites de espacio" . Informática Teórica . 410 (37): 3553–3562. CiteSeerX 10.1.1.157.7443 . doi : 10.1016 / J.TCS.2009.03.034 . ISSN 0304-3975 . Wikidata Q90410808 .
Дмитрий А. Паращенко (2007), Обработка строк на основе суффиксных автоматов (PDF) (en ruso), San Petersburgo: ITMO University , Wikidata Q90436837
Vaughan Ronald Pratt (1973), Mejoras y aplicaciones para el buscador de repetición Weiner , OCLC 726598262 , Wikidata Q90300966
Александр Александрович Рубцов (2019). Заметки и задачи о регулярных языках и конечных автоматах (PDF) (en ruso). Moscú: Instituto de Física y Tecnología de Moscú . ISBN 978-5-7417-0702-9. Wikidata Q90435728 .
Mikhail Rubinchik; Arseny M. Shur (febrero de 2018). "Eertree" (PDF) . Revista europea de combinatoria . 68 : 249-265. arXiv : 1506.04862 . doi : 10.1016 / J.EJC.2017.07.021 . ISSN 0195-6698 . Wikidata Q90726647 .
Martin Senft; Tomáš Dvořák (2008). Perfección deslizante CDAWG . Simposio internacional sobre procesamiento de cadenas y recuperación de información . págs. 109-120. doi : 10.1007 / 978-3-540-89097-3_12 . ISBN 978-3-540-89097-3. Wikidata Q90426624 .
Anatoly Olesievich Slisenko (1983). "Detección de periodicidades y emparejamiento de cadenas en tiempo real" . Revista de Ciencias Matemáticas . 22 (3): 1316-1387. doi : 10.1007 / BF01084395 . ISSN 1072-3374 . Wikidata Q90305414 .
Peter Weiner (octubre de 1973). "Algoritmos de coincidencia de patrones lineales" . Simposio sobre los fundamentos de la informática : 1–11. CiteSeerX 10.1.1.474.9582 . doi : 10.1109 / SWAT.1973.13 . Wikidata Q29541479 .
Jun'ichi Yamamoto; Tomohiro I; Hideo Bannai; Shunsuke Inenaga; Masayuki Takeda (2014). Factorización Lempel-Ziv en línea compacta más rápida (PDF) . Simposio sobre Aspectos Teóricos de la Informática . Actas internacionales de Leibniz en informática. 25 . págs. 675–686. CiteSeerX 10.1.1.742.6691 . doi : 10.4230 / LIPICS.STACS.2014.675 . ISBN 978-3-939897-65-1. ISSN 1868-8969 . Wikidata Q90348192 .

enlaces externos

Medios relacionados con el autómata de sufijo en Wikimedia Commons
Artículo de autómata de sufijo sobre algoritmos E-Maxx en inglés

[:16-1] Crochemore, Vérin (1997) , p. 192

[:5-2] Weiner (1973)

[3] Pratt (1973)

[4] Slisenko (1983)

[:2-5] Blumer y col. (1984) , pág. 109

[:6-6] Chen, Seiferas (1985) , p. 97

[:7-7] Blumer y col. (1987) , pág. 578

[:8-8] Inenaga y col. (2001) , pág. 1

[:1-9] Crochemore, Hancart (1997) , págs. 3-6

[:14-10] Серебряков и др. (2006) , págs. 50 a 54

[11] Рубцов (2019) , págs. 89-94

[12] Hopcroft, Ullman (1979) , págs. 65-68

[:9-13] Blumer y col. (1984) , págs. 111-114

[:10-14] ↑ a b c d e f g h Crochemore, Hancart (1997) , págs. 27-31

[:3-15] Inenaga et al. (2005) , págs. 159-162

[16] Rubinchik, Shur (2018) , págs. 1-2

[:0-17] Inenaga y col. (2005) , págs. 156-158

[:11-18] Fujishige y col. (2016) , págs. 1-3

[:12-19] Crochemore, Hancart (1997) , págs. 31-36

[20] Паращенко (2007) , págs. 19-22

[21] Blumer (1987) , p. 451

[22] Inenaga (2003) , p. 1

[:13-23] Blumer y col. (1987) , págs. 585-588

[24] Blumer y col. (1987) , págs. 588-589

[25] Blumer y col. (1987) , pág. 593

[26] Mohri y col. (2009) , págs. 3558—3560

[27] Blumer (1987) , págs. 461-465

[28] Fiala, Greene (1989) , p. 490

[29] Larsson (1996)

[30] Brodnik, Jekovec (2018) , p. 1

[31] Senft, Dvořák (2008) , p. 109

[32] Inenaga y col. (2004)

[:15-33] Crochemore, Hancart (1997) , págs. 36-39

[:4-34] Crochemore, Hancart (1997) , págs. 39-41

[35] Yamamoto y col. (2014) , pág. 675

[36] Crochemore y col. (2003) , pág. 211

[37] Mohri y col. (2009) , pág. 3553

[38] Faro (2016) , p. 145

[1]