El algoritmo de Kleene

En la informática teórica , en particular en la teoría del lenguaje formal , el algoritmo de Kleene transforma un autómata finito no determinista (NFA) dado en una expresión regular . Junto con otros algoritmos de conversión, establece la equivalencia de varios formatos de descripción para lenguajes regulares . Presentaciones alternativas del mismo método incluyen el "método de eliminación" atribuido a Brzozowski y McCluskey , el algoritmo de McNaughton y Yamada , ^[1] y el uso del lema de Arden .

Descripción del algoritmo

Según Gross y Yellen (2004), ^[2] el algoritmo se remonta a Kleene (1956). ^[3] Hopcroft y Ullman (1979) ofrecen una presentación del algoritmo en el caso de autómatas finitos deterministas (DFA). ^[4] La presentación del algoritmo para NFA a continuación sigue a Gross y Yellen (2004). ^[2]

Dado un autómata finito no determinista M = ( Q , Σ, δ, q ₀ , F ), con Q = { q ₀ , ..., q _n } su conjunto de estados , el algoritmo calcula

los conjuntos R^k
_ijde todas las cadenas que toman M del estado q _i al q _j sin pasar por ningún estado numerado más alto que k .

Aquí, "pasar por un estado" significa entrar y salir de él, por lo que tanto i como j pueden ser mayores que k , pero ningún estado intermedio puede serlo . Cada conjunto R^k
_ijestá representado por una expresión regular; el algoritmo los calcula paso a paso para k = -1, 0, ..., n . Dado que no hay ningún estado numerado más alto que n , la expresión regular Rⁿ
_0jrepresenta el conjunto de todas las cadenas que toman M desde su estado inicial q ₀ hasta q _j . Si F = { q ₁ , ..., q _f } es el conjunto de estados de aceptación , la expresión regular Rⁿ
₀₁| ... | Rⁿ
_0frepresenta el idioma aceptado por M .

Las expresiones regulares iniciales, para k = -1, se calculan de la siguiente manera para i ≠ j :

R⁻¹
_ij= a ₁ | ... | a _m donde q _j ∈ δ ( q _yo , a ₁ ), ..., q _j ∈ δ ( q _yo , a _m )

y de la siguiente manera para i = j :

R⁻¹
_ii= a ₁ | ... | a _m | ε donde q _yo ∈ δ ( q _yo , una ₁ ), ..., q _yo ∈ δ ( q _yo , una _m )

En otras palabras, R⁻¹
_ijmenciona todas las letras que etiquetan una transición de i a j , y también incluimos ε en el caso donde i = j .

Después de eso, en cada paso las expresiones R^k
_ij se calculan a partir de los anteriores por

R^k
_ij= R^{k -1}
_ik( R^{k -1}
_kk) ^*R^{k -1}
_kj| R^{k -1}
_ij

Otra manera de entender el funcionamiento del algoritmo es como un "método de eliminación", donde los estados de 0 a n se eliminan sucesivamente: cuando el estado k se retira, la expresión regular R^{k -1}
_ij, que describe las palabras que etiquetan una ruta desde el estado i > k al estado j > k , se reescribe en R^k
_ijpara tener en cuenta la posibilidad de pasar por el estado k "eliminado" .

Por inducción sobre k , se puede demostrar que la longitud ^[5] de cada expresión R^k
_ij es como máximo 1/3(4 ^{k +1} (6 s +7) - 4) símbolos, donde s denota el número de caracteres en Σ. Por lo tanto, la longitud de la expresión regular que representa el idioma aceptado por M es como máximo 1/3(4 ^{n +1} (6 s +7) f - f - 3) símbolos, donde f denota el número de estados finales. Esta explosión exponencial es inevitable, porque existen familias de DFA para las que cualquier expresión regular equivalente debe ser de tamaño exponencial. ^[6]

En la práctica, el tamaño de la expresión regular obtenida al ejecutar el algoritmo puede ser muy diferente dependiendo del orden en el que los estados son considerados por el procedimiento, es decir, el orden en el que se numeran de 0 a n .

Ejemplo

Ejemplo de DFA dado al algoritmo de Kleene

El autómata que se muestra en la imagen se puede describir como M = ( Q , Σ, δ, q ₀ , F ) con

el conjunto de estados Q = { q ₀ , q ₁ , q ₂ },
el alfabeto de entrada Σ = { a , b },
la función de transición δ con δ ( q ₀ , a ) = q ₀ , δ ( q ₀ , b ) = q ₁ , δ ( q ₁ , a ) = q ₂ , δ ( q ₁ , b ) = q ₁ , δ ( q ₂ , a ) = q ₁ , y δ ( q ₂ , b ) = q ₁ ,
el estado de inicio q ₀ , y
conjunto de estados de aceptación F = { q ₁ }.

El algoritmo de Kleene calcula las expresiones regulares iniciales como

R⁻¹ ₀₀	= a \| ε
R⁻¹ ₀₁	= b
R⁻¹ ₀₂	= ∅
R⁻¹ ₁₀	= ∅
R⁻¹ ₁₁	= b \| ε
R⁻¹ ₁₂	= a
R⁻¹ ₂₀	= ∅
R⁻¹ ₂₁	= a \| B
R⁻¹ ₂₂	= ε

Después de eso, la R^k
_ijse calculan a partir de R^{k -1}
_ijpaso a paso para k = 0, 1, 2. Las igualdades del álgebra de Kleene se utilizan para simplificar las expresiones regulares tanto como sea posible.

Paso 0

R⁰ ₀₀	= R⁻¹ ₀₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₀\| R⁻¹ ₀₀	= ( a \| ε)	( a \| ε) ^*	( a \| ε)	\| a \| ε	= a ^*
R⁰ ₀₁	= R⁻¹ ₀₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₁\| R⁻¹ ₀₁	= ( a \| ε)	( a \| ε) ^*	B	\| B	= a ^* b
R⁰ ₀₂	= R⁻¹ ₀₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₂\| R⁻¹ ₀₂	= ( a \| ε)	( a \| ε) ^*	∅	\| ∅	= ∅
R⁰ ₁₀	= R⁻¹ ₁₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₀\| R⁻¹ ₁₀	= ∅	( a \| ε) ^*	( a \| ε)	\| ∅	= ∅
R⁰ ₁₁	= R⁻¹ ₁₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₁\| R⁻¹ ₁₁	= ∅	( a \| ε) ^*	B	\| b \| ε	= b \| ε
R⁰ ₁₂	= R⁻¹ ₁₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₂\| R⁻¹ ₁₂	= ∅	( a \| ε) ^*	∅	\| a	= a
R⁰ ₂₀	= R⁻¹ ₂₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₀\| R⁻¹ ₂₀	= ∅	( a \| ε) ^*	( a \| ε)	\| ∅	= ∅
R⁰ ₂₁	= R⁻¹ ₂₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₁\| R⁻¹ ₂₁	= ∅	( a \| ε) ^*	B	\| a \| B	= a \| B
R⁰ ₂₂	= R⁻¹ ₂₀( R⁻¹ ₀₀) ^* R⁻¹ ₀₂\| R⁻¹ ₂₂	= ∅	( a \| ε) ^*	∅	\| ε	= ε

Paso 1

R¹ ₀₀	= R⁰ ₀₁( R⁰ ₁₁) ^* R⁰ ₁₀\| R⁰ ₀₀	= a ^*b	( b \| ε) ^*	∅	\| un ^*	= a ^*
R¹ ₀₁	= R⁰ ₀₁( R⁰ ₁₁) ^* R⁰ ₁₁\| R⁰ ₀₁	= a ^*b	( b \| ε) ^*	( b \| ε)	\| a ^* b	= a ^* b ^* b
R¹ ₀₂	= R⁰ ₀₁( R⁰ ₁₁) ^* R⁰ ₁₂\| R⁰ ₀₂	= a ^*b	( b \| ε) ^*	a	\| ∅	= a ^* b ^* ba
R¹ ₁₀	= R⁰ ₁₁( R⁰ ₁₁) ^* R⁰ ₁₀\| R⁰ ₁₀	= ( b \| ε)	( b \| ε) ^*	∅	\| ∅	= ∅
R¹ ₁₁	= R⁰ ₁₁( R⁰ ₁₁) ^* R⁰ ₁₁\| R⁰ ₁₁	= ( b \| ε)	( b \| ε) ^*	( b \| ε)	\| b \| ε	= b ^*
R¹ ₁₂	= R⁰ ₁₁( R⁰ ₁₁) ^* R⁰ ₁₂\| R⁰ ₁₂	= ( b \| ε)	( b \| ε) ^*	a	\| a	= b ^* a
R¹ ₂₀	= R⁰ ₂₁( R⁰ ₁₁) ^* R⁰ ₁₀\| R⁰ ₂₀	= ( a \| b )	( b \| ε) ^*	∅	\| ∅	= ∅
R¹ ₂₁	= R⁰ ₂₁( R⁰ ₁₁) ^* R⁰ ₁₁\| R⁰ ₂₁	= ( a \| b )	( b \| ε) ^*	( b \| ε)	\| a \| B	= ( a \| b ) b ^*
R¹ ₂₂	= R⁰ ₂₁( R⁰ ₁₁) ^* R⁰ ₁₂\| R⁰ ₂₂	= ( a \| b )	( b \| ε) ^*	a	\| ε	= ( a \| b ) b ^* a \| ε

Paso 2

R² ₀₀	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₀\| R¹ ₀₀	= a ^b ^ba	(( a \| b ) b ^a \| ε) ^	∅	\| un ^*	= a ^*
R² ₀₁	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₁\| R¹ ₀₁	= a ^b ^ba	(( a \| b ) b ^a \| ε) ^	( a \| b ) b ^*	\| a ^* b ^* b	= a ^* b ( a ( a \| b ) \| b ) ^*
R² ₀₂	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₂\| R¹ ₀₂	= a ^b ^ba	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| a ^* b ^* ba	= a ^* b ^* b ( a ( a \| b ) b ^* ) ^* a
R² ₁₀	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₀\| R¹ ₁₀	= b ^* a	(( a \| b ) b ^a \| ε) ^	∅	\| ∅	= ∅
R² ₁₁	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₁\| R¹ ₁₁	= b ^* a	(( a \| b ) b ^a \| ε) ^	( a \| b ) b ^*	\| b ^*	= ( a ( a \| b ) \| b ) ^*
R² ₁₂	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₂\| R¹ ₁₂	= b ^* a	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| b ^* a	= ( a ( a \| b ) \| b ) ^* a
R² ₂₀	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₀\| R¹ ₂₀	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	∅	\| ∅	= ∅
R² ₂₁	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₁\| R¹ ₂₁	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	( a \| b ) b ^*	\| ( a \| b ) b ^*	= ( a \| b ) ( a ( a \| b ) \| b ) ^*
R² ₂₂	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₂\| R¹ ₂₂	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| ( a \| b ) b ^* a \| ε	= (( a \| b ) b ^* a ) ^*

Dado que q ₀ es el estado inicial y q ₁ es el único estado aceptado, la expresión regular R²
₀₁ denota el conjunto de todas las cadenas aceptadas por el autómata.

Ver también

Algoritmo de Floyd – Warshall : un algoritmo en gráficos ponderados que puede ser implementado por el algoritmo de Kleene usando un álgebra de Kleene particular.
Problema de altura de estrella : ¿cuál es la profundidad de anidación de estrellas mínima de todas las expresiones regulares correspondientes a un DFA determinado?
Problema generalizado de altura de la estrella : si se permite un operador de complemento adicionalmente en las expresiones regulares, ¿se puede limitar la profundidad de anidación de las estrellas de la salida del algoritmo de Kleene a un límite fijo?
Algoritmo de construcción de Thompson : transforma una expresión regular en un autómata finito

Referencias

^ McNaughton, R .; Yamada, H. (marzo de 1960). "Expresiones regulares y gráficos de estado para autómatas". Transacciones IRE en computadoras electrónicas . EC-9 (1): 39–47. doi : 10.1109 / TEC.1960.5221603 . ISSN 0367-9950 .
^ ^a ^b Jonathan L. Gross y Jay Yellen, ed. (2004). Manual de teoría de grafos . Matemáticas discretas y sus aplicaciones. Prensa CRC. ISBN 1-58488-090-2. Aquí: sección 2.1, observación R13 en la p.65
^ Kleene, Stephen C. (1956). "Representación de eventos en redes nerviosas y automatización finita" (PDF) . Automata Studies, Annals of Math. Estudios . Universidad de Princeton Prensa. 34 . Aquí: sección 9, p. 37-40
^ John E. Hopcroft, Jeffrey D. Ullman (1979). Introducción a la teoría, los lenguajes y la computación de los autómatas . Addison-Wesley. ISBN 0-201-02988-X. Aquí: Sección 3.2.1 páginas 91-96
^ Más precisamente, el número de símbolos de expresión regular, " a _i ", "ε", "|", "^* ", "·"; sin contar los paréntesis.
^ Gruber, Hermann; Holzer, Markus (2008). Aceto, Luca; Damgård, Ivan; Goldberg, Leslie Ann; Halldórsson, Magnús M .; Ingólfsdóttir, Anna; Walukiewicz, Igor (eds.). "Autómatas finitos, conectividad Digraph y tamaño de expresión regular" . Autómatas, lenguajes y programación . Apuntes de conferencias en Ciencias de la Computación. Springer Berlín Heidelberg. 5126 : 39–50. doi : 10.1007 / 978-3-540-70583-3_4 . ISBN 9783540705833.. Teorema 16.

[1] McNaughton, R .; Yamada, H. (marzo de 1960). "Expresiones regulares y gráficos de estado para autómatas". Transacciones IRE en computadoras electrónicas . EC-9 (1): 39–47. doi : 10.1109 / TEC.1960.5221603 . ISSN 0367-9950 .

[gross2004handbook-2] Jonathan L. Gross y Jay Yellen, ed. (2004). Manual de teoría de grafos . Matemáticas discretas y sus aplicaciones. Prensa CRC. ISBN 1-58488-090-2. Aquí: sección 2.1, observación R13 en la p.65

[3] Kleene, Stephen C. (1956). "Representación de eventos en redes nerviosas y automatización finita" (PDF) . Automata Studies, Annals of Math. Estudios . Universidad de Princeton Prensa. 34 . Aquí: sección 9, p. 37-40

[4] John E. Hopcroft, Jeffrey D. Ullman (1979). Introducción a la teoría, los lenguajes y la computación de los autómatas . Addison-Wesley. ISBN 0-201-02988-X. Aquí: Sección 3.2.1 páginas 91-96

[5] Más precisamente, el número de símbolos de expresión regular, " a _i ", "ε", "|", "^* ", "·"; sin contar los paréntesis.

[6] Gruber, Hermann; Holzer, Markus (2008). Aceto, Luca; Damgård, Ivan; Goldberg, Leslie Ann; Halldórsson, Magnús M .; Ingólfsdóttir, Anna; Walukiewicz, Igor (eds.). "Autómatas finitos, conectividad Digraph y tamaño de expresión regular" . Autómatas, lenguajes y programación . Apuntes de conferencias en Ciencias de la Computación. Springer Berlín Heidelberg. 5126 : 39–50. doi : 10.1007 / 978-3-540-70583-3_4 . ISBN 9783540705833.. Teorema 16.

[1]

R¹ ₀₀	= R⁰ ₀₁( R⁰ ₁₁) ^* R⁰ ₁₀\| R⁰ ₀₀	= a ^*b	( b \| ε) ^*	∅	\| un ^*	= a ^*
R¹ ₀₁	= R⁰ ₀₁( R⁰ ₁₁) ^* R⁰ ₁₁\| R⁰ ₀₁	= a ^*b	( b \| ε) ^*	( b \| ε)	\| a ^* b	= a ^* b ^* b
R¹ ₀₂	= R⁰ ₀₁( R⁰ ₁₁) ^* R⁰ ₁₂\| R⁰ ₀₂	= a ^*b	( b \| ε) ^*	a	\| ∅	= a ^* b ^* ba
R¹ ₁₀	= R⁰ ₁₁( R⁰ ₁₁) ^* R⁰ ₁₀\| R⁰ ₁₀	= ( b \| ε)	( b \| ε) ^*	∅	\| ∅	= ∅
R¹ ₁₁	= R⁰ ₁₁( R⁰ ₁₁) ^* R⁰ ₁₁\| R⁰ ₁₁	= ( b \| ε)	( b \| ε) ^*	( b \| ε)	\| b \| ε	= b ^*
R¹ ₁₂	= R⁰ ₁₁( R⁰ ₁₁) ^* R⁰ ₁₂\| R⁰ ₁₂	= ( b \| ε)	( b \| ε) ^*	a	\| a	= b ^* a
R¹ ₂₀	= R⁰ ₂₁( R⁰ ₁₁) ^* R⁰ ₁₀\| R⁰ ₂₀	= ( a \| b )	( b \| ε) ^*	∅	\| ∅	= ∅
R¹ ₂₁	= R⁰ ₂₁( R⁰ ₁₁) ^* R⁰ ₁₁\| R⁰ ₂₁	= ( a \| b )	( b \| ε) ^*	( b \| ε)	\| a \| B	= ( a \| b ) b ^*
R¹ ₂₂	= R⁰ ₂₁( R⁰ ₁₁) ^* R⁰ ₁₂\| R⁰ ₂₂	= ( a \| b )	( b \| ε) ^*	a	\| ε	= ( a \| b ) b ^* a \| ε

R² ₀₀	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₀\| R¹ ₀₀	= a ^b ^ba	(( a \| b ) b ^a \| ε) ^	∅	\| un ^*	= a ^*
R² ₀₁	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₁\| R¹ ₀₁	= a ^b ^ba	(( a \| b ) b ^a \| ε) ^	( a \| b ) b ^*	\| a ^* b ^* b	= a ^* b ( a ( a \| b ) \| b ) ^*
R² ₀₂	= R¹ ₀₂( R¹ ₂₂) ^* R¹ ₂₂\| R¹ ₀₂	= a ^b ^ba	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| a ^* b ^* ba	= a ^* b ^* b ( a ( a \| b ) b ^* ) ^* a
R² ₁₀	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₀\| R¹ ₁₀	= b ^* a	(( a \| b ) b ^a \| ε) ^	∅	\| ∅	= ∅
R² ₁₁	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₁\| R¹ ₁₁	= b ^* a	(( a \| b ) b ^a \| ε) ^	( a \| b ) b ^*	\| b ^*	= ( a ( a \| b ) \| b ) ^*
R² ₁₂	= R¹ ₁₂( R¹ ₂₂) ^* R¹ ₂₂\| R¹ ₁₂	= b ^* a	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| b ^* a	= ( a ( a \| b ) \| b ) ^* a
R² ₂₀	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₀\| R¹ ₂₀	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	∅	\| ∅	= ∅
R² ₂₁	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₁\| R¹ ₂₁	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	( a \| b ) b ^*	\| ( a \| b ) b ^*	= ( a \| b ) ( a ( a \| b ) \| b ) ^*
R² ₂₂	= R¹ ₂₂( R¹ ₂₂) ^* R¹ ₂₂\| R¹ ₂₂	= (( a \| b ) b ^*a \| ε)	(( a \| b ) b ^a \| ε) ^	(( a \| b ) b ^*a \| ε)	\| ( a \| b ) b ^* a \| ε	= (( a \| b ) b ^* a ) ^*