Bombeo de lema para idiomas regulares

En la teoría de los lenguajes formales , el lema de bombeo de los lenguajes regulares es un lema que describe una propiedad esencial de todos los lenguajes regulares . De manera informal, dice que todas las palabras lo suficientemente largas en un idioma regular pueden bombearse —es decir, hacer que una sección intermedia de la palabra se repita un número arbitrario de veces— para producir una nueva palabra que también se encuentre dentro del mismo idioma.

Específicamente, el lema de bombeo dice que para cualquier idioma regular ${\ Displaystyle L}$ existe una constante ${\ Displaystyle p}$ tal que cualquier palabra ${\ Displaystyle w}$ en ${\ Displaystyle L}$ con longitud al menos ${\ Displaystyle p}$ se puede dividir en tres subcadenas, ${\ Displaystyle w = xyz}$ , donde la parte del medio ${\ Displaystyle y}$ no debe estar vacío, de modo que las palabras ${\ Displaystyle xz, xyz, xyyz, xyyyz, ...}$ construido repitiendo ${\ Displaystyle y}$ cero o más veces todavía están en ${\ Displaystyle L}$ . Este proceso de repetición se conoce como "bombeo". Además, el lema de bombeo garantiza que la longitud de ${\ Displaystyle xy}$ será como máximo ${\ Displaystyle p}$ , imponiendo un límite a las formas en que ${\ Displaystyle w}$ puede estar dividido. Los lenguajes finitos satisfacen vacuamente el lema de bombeo al tener ${\ Displaystyle p}$ igual a la longitud máxima de la cuerda en ${\ Displaystyle L}$ mas uno.

El lema de bombeo es útil para refutar la regularidad de un idioma específico en cuestión. Fue probado por primera vez por Michael Rabin y Dana Scott en 1959, ^[1] y redescubierto poco después por Yehoshua Bar-Hillel , Micha A. Perles y Eli Shamir en 1961, como una simplificación de su lema de bombeo para lenguajes libres de contexto . ^[2]^[3]

Declaración formal

Dejar ${\ Displaystyle L}$ ser un idioma habitual. Entonces existe un entero ${\ Displaystyle p \ geq 1}$ dependiendo solo de ${\ Displaystyle L}$ tal que cada cuerda ${\ Displaystyle w}$ en ${\ Displaystyle L}$ de longitud al menos ${\ Displaystyle p}$ ( ${\ Displaystyle p}$ se llama "longitud de bombeo") ^[4] se puede escribir como ${\ Displaystyle w = xyz}$ (es decir, ${\ Displaystyle w}$ se puede dividir en tres subcadenas), cumpliendo las siguientes condiciones:

${\ Displaystyle | y | \ geq 1}$
${\ Displaystyle | xy | \ leq p}$
${\ Displaystyle (\ forall n \ geq 0) (xy ^ {n} z \ in L)}$

${\ Displaystyle y}$ es la subcadena que se puede bombear (eliminar o repetir cualquier número de veces, y la cadena resultante siempre está en ${\ Displaystyle L}$ ). (1) significa el bucle ${\ Displaystyle y}$ para ser bombeado debe tener una longitud de al menos uno; (2) significa que el bucle debe ocurrir dentro del primer ${\ Displaystyle p}$ caracteres. ${\ Displaystyle | x |}$ debe ser menor que ${\ Displaystyle p}$ (conclusión de (1) y (2)), pero aparte de eso, no hay restricción en ${\ Displaystyle x}$ y ${\ Displaystyle z}$ .

En palabras sencillas, para cualquier idioma habitual ${\ Displaystyle L}$ , cualquier palabra lo suficientemente larga ${\ Displaystyle w}$ (en ${\ Displaystyle L}$ ) se puede dividir en 3 partes. es decir ${\ Displaystyle w = xyz}$ , tal que todas las cuerdas ${\ Displaystyle xy ^ {n} z}$ por ${\ Displaystyle n \ geq 0}$ también están en ${\ Displaystyle L}$ .

A continuación se muestra una expresión formal del lema de bombeo.

${\ Displaystyle {\ begin {array} {l} (\ forall L \ subseteq \ Sigma ^ {*}) \\\ quad ({\ mbox {regular}} (L) \ Rightarrow \\\ quad ((\ existe p \ geq 1) ((\ forall w \ in L) ((| w | \ geq p) \ Rightarrow \\\ quad ((\ existe x, y, z \ in \ Sigma ^ {*}) (w = xyz \ land (| y | \ geq 1 \ land | xy | \ leq p \ land (\ forall n \ geq 0) (xy ^ {n} z \ in L)))))))) \ end {matriz }}}$

Uso del lema

El lema de bombeo se utiliza a menudo para demostrar que un idioma en particular no es regular: una prueba por contradicción puede consistir en exhibir una palabra (de la longitud requerida) en el idioma que carece de la propiedad descrita en el lema de bombeo.

Por ejemplo, el idioma ${\ Displaystyle L = \ {a ^ {n} b ^ {n}: n \ geq 0 \}}$ sobre el alfabeto ${\ Displaystyle \ Sigma = \ {a, b \}}$ se puede demostrar que no es regular de la siguiente manera:

Dejar ${\ Displaystyle w, x, y, z, p}$ , y ${\ Displaystyle n}$ ser como se usa en la declaración formal para el lema de bombeo anterior. Suponga que alguna constante ${\ Displaystyle p}$ existe como lo requiere el lema. Dejar ${\ Displaystyle w}$ en ${\ Displaystyle L}$ ser dado por ${\ Displaystyle w = a ^ {p} b ^ {p}}$ , que es una cadena más larga que ${\ Displaystyle p}$ . Por el lema de bombeo, debe existir una descomposición ${\ Displaystyle w = xyz}$ con ${\ Displaystyle | xy | \ leq p}$ y ${\ Displaystyle | y | \ geq 1}$ tal que ${\ Displaystyle xy ^ {i} z}$ en ${\ Displaystyle L}$ para cada ${\ Displaystyle i \ geq 0}$ . Desde ${\ Displaystyle | xy | \ leq p}$ , la cuerda ${\ Displaystyle y}$ solo consta de instancias de ${\ Displaystyle a}$ . Además, porque ${\ Displaystyle | y | \ geq 1}$ , contiene al menos una instancia de la letra ${\ Displaystyle a}$ . Sin emabargo, ${\ Displaystyle xy ^ {2} z}$ tiene más instancias de la letra ${\ Displaystyle a}$ que la letra ${\ Displaystyle b}$ , ya que algunos casos de ${\ Displaystyle a}$ pero ninguno de ${\ Displaystyle b}$ fueron agregados. Por lo tanto, ${\ Displaystyle xy ^ {2} z}$ no está dentro ${\ Displaystyle L}$ que contradice el lema de Bombeo. Por lo tanto, ${\ Displaystyle L}$ no puede ser regular.

La prueba de que el lenguaje de los paréntesis equilibrados (es decir, correctamente anidados) no es regular sigue la misma idea. Dado ${\ Displaystyle p}$ , hay una serie de paréntesis equilibrados que comienza con más de ${\ Displaystyle p}$ dejó paréntesis, de modo que ${\ Displaystyle y}$ consistirá enteramente en paréntesis izquierdos. Repitiendo ${\ Displaystyle y}$ , se puede producir una cadena que no contenga el mismo número de paréntesis izquierdo y derecho, por lo que no se pueden equilibrar.

Prueba del lema de bombeo

Idea de prueba: siempre que un autómata finito reconozca una cadena xyz suficientemente larga , debe haber alcanzado algún estado (

{\ Displaystyle q_ {s} = q_ {t}}

) dos veces. Por lo tanto, después de repetir ("bombear") la parte media

{\ Displaystyle y}

arbitrariamente a menudo ( xyyz , xyyyz , ...) la palabra seguirá siendo reconocida.

Para cada idioma regular hay un autómata de estado finito (FSA) que acepta el idioma. Se cuenta el número de estados en tal FSA y ese recuento se usa como la longitud de bombeo ${\ Displaystyle p}$ . Para una cadena de longitud al menos ${\ Displaystyle p}$ , dejar ${\ Displaystyle q_ {0}}$ ser el estado de inicio y dejar ${\ Displaystyle q_ {1}, ..., q_ {p}}$ ser la secuencia del siguiente ${\ Displaystyle p}$ estados visitados cuando se emite la cadena. Porque la FSA solo tiene ${\ Displaystyle p}$ estados, dentro de esta secuencia de ${\ Displaystyle p + 1}$ estados visitados debe haber al menos un estado que se repita. Escribir ${\ Displaystyle q_ {s}}$ para tal estado. Las transiciones que toman la máquina desde el primer encuentro de estado ${\ Displaystyle q_ {s}}$ al segundo encuentro de estado ${\ Displaystyle q_ {s}}$ coincidir con alguna cuerda. Esta cadena se llama ${\ Displaystyle y}$ en el lema, y dado que la máquina coincidirá con una cadena sin el ${\ Displaystyle y}$ porción, o con la cuerda ${\ Displaystyle y}$ repetido cualquier número de veces, se cumplen las condiciones del lema.

Por ejemplo, la siguiente imagen muestra una FSA.

An automat accepting the language a(bc)*d.svg

La FSA acepta la cadena: abcd . Dado que esta cadena tiene una longitud al menos tan grande como el número de estados, que es cuatro, el principio de casillero indica que debe haber al menos un estado repetido entre el estado de inicio y los siguientes cuatro estados visitados. En este ejemplo, solo ${\ Displaystyle q_ {1}}$ es un estado repetido. Dado que la subcadena bc lleva a la máquina a través de transiciones que comienzan en el estado ${\ Displaystyle q_ {1}}$ y terminar en el estado ${\ Displaystyle q_ {1}}$ , esa parte podría repetirse y la FSA aún aceptaría, dando la cadena abcbcd . Alternativamente, la parte bc podría eliminarse y la FSA aún aceptaría proporcionar el anuncio de cadena . En términos del lema de bombeo, la cadena abcd se divide en un ${\ Displaystyle x}$ porción a , a ${\ Displaystyle y}$ porción bc y a ${\ Displaystyle z}$ porción d .

Como observación al margen, el problema de comprobar si una cadena dada puede ser aceptada por un autómata finito no determinista dado sin visitar ningún estado repetidamente, es NP difícil .

Versión general del lema de bombeo para idiomas regulares

Si un idioma ${\ Displaystyle L}$ es regular, entonces existe un número ${\ Displaystyle p \ geq 1}$ (la longitud de bombeo) tal que cada cuerda ${\ displaystyle uwv}$ en ${\ Displaystyle L}$ con ${\ Displaystyle | w | \ geq p}$ se puede escribir en la forma

{\ Displaystyle uwv = uxyzv}

con cuerdas ${\ Displaystyle x}$ , ${\ Displaystyle y}$ y ${\ Displaystyle z}$ tal que ${\ Displaystyle | xy | \ leq p}$ , ${\ Displaystyle | y | \ geq 1}$ y

{\ Displaystyle uxy ^ {i} zv}

es en

{\ Displaystyle L}

por cada entero

{\ Displaystyle i \ geq 0}

. ^[5]

De esto, la versión estándar anterior sigue un caso especial, con ambos ${\ Displaystyle u}$ y ${\ Displaystyle v}$ siendo la cadena vacía.

Dado que la versión general impone requisitos más estrictos al idioma, se puede utilizar para probar la irregularidad de muchos más idiomas, como ${\ Displaystyle \ {a ^ {m} b ^ {n} c ^ {n}: m \ geq 1 {\ text {y}} n \ geq 1 \}}$ . ^[6]

El inverso del lema no es cierto

Si bien el lema de bombeo establece que todos los lenguajes regulares satisfacen las condiciones descritas anteriormente, lo contrario de esta afirmación no es cierto: un lenguaje que satisfaga estas condiciones puede ser aún no regular. En otras palabras, tanto el la versión general del bombeo original y hacerle un lema necesario pero no suficiente condición para un lenguaje que sea regular.

Por ejemplo, considere el siguiente idioma:

{\ Displaystyle {\ begin {matrix} L & = & \ {uvwxy: u, y \ in \ {0,1,2,3 \} ^ {*}; v, w, x \ in \ {0,1, 2,3 \} \ land (v = w \ lor v = x \ lor x = w) \} \\ && \ cup \ \ {w: w \ in \ {0,1,2,3 \} ^ { *} \ land {\ text {precisamente}} {\ tfrac {1} {7}} {\ text {de los caracteres en}} w {\ text {son 3}} \} \ end {matriz}}}

.

En otras palabras, ${\ Displaystyle L}$ contiene todas las cadenas sobre el alfabeto ${\ Displaystyle \ {0,1,2,3 \}}$ con una subcadena de longitud 3 que incluye un carácter duplicado, así como todas las cadenas sobre este alfabeto donde exactamente 1/7 de los caracteres de la cadena son 3. Este lenguaje no es regular, pero aún se puede "bombear" con ${\ Displaystyle p = 5}$ . Suponga que alguna cadena s tiene una longitud de al menos 5. Entonces, dado que el alfabeto tiene sólo cuatro caracteres, al menos dos de los primeros cinco caracteres de la cadena deben estar duplicados. Están separados por un máximo de tres caracteres.

Si los caracteres duplicados están separados por 0 caracteres o 1, bombee uno de los otros dos caracteres de la cadena, lo que no afectará a la subcadena que contiene los duplicados.
Si los caracteres duplicados están separados por 2 o 3 caracteres, bombee 2 de los caracteres que los separan. Bombear hacia abajo o hacia arriba da como resultado la creación de una subcadena de tamaño 3 que contiene 2 caracteres duplicados.
La segunda condición de ${\ Displaystyle L}$ asegura que ${\ Displaystyle L}$ no es regular: considere la cadena ${\ displaystyle (013) ^ {3m} (012) ^ {i}}$ . Esta cadena está en ${\ Displaystyle L}$ Exactamente cuando ${\ Displaystyle i = 4 m}$ y por lo tanto ${\ Displaystyle L}$ no es regular según el teorema de Myhill-Nerode .

El teorema de Myhill-Nerode proporciona una prueba que caracteriza exactamente los lenguajes regulares. El método típico para probar que un lenguaje es regular es construir una máquina de estados finitos o una expresión regular para el lenguaje.

Ver también

Notas

^ Rabin, Michael ; Scott, Dana (abril de 1959). "Autómatas finitos y sus problemas de decisión" (PDF) . Revista de investigación y desarrollo de IBM . 3 (2): 114-125. doi : 10.1147 / rd.32.0114 . Archivado desde el original el 14 de diciembre de 2010.CS1 maint: URL no apta ( enlace ) Aquí: Lema 8, p.119
^ Bar-Hillel, Y .; Perles, M .; Shamir, E. (1961), "Sobre las propiedades formales de las gramáticas de estructura sintagmática simple", Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung , 14 (2): 143-172
^ John E. Hopcroft; Rajeev Motwani; Jeffrey D. Ullman (2003). Introducción a la teoría, los lenguajes y la computación de los autómatas . Addison Wesley. Aquí: Sección 4.6, p.166
^ Berstel, Jean; Lauve, Aaron; Reutenauer, Christophe; Saliola, Franco V. (2009). Combinatoria de palabras. Christoffel palabras y repeticiones en palabras . Serie de monografías CRM. 27 . Providence, RI: Sociedad Matemática Estadounidense . pag. 86. ISBN 978-0-8218-4480-9. Zbl 1161.68043 .
^ Savitch, Walter (1982). Máquinas abstractas y gramáticas . pag. 49 . ISBN 978-0-316-77161-0.
^ John E. Hopcroft y Jeffrey D. Ullman (1979). Introducción a la teoría, los lenguajes y la computación de los autómatas . Lectura / MA: Addison-Wesley. ISBN 978-0-201-02988-8.Aquí: p. 72, Ejercicio 3.2 (que da una versión un poco menos general, que requiere | w | = p ) y 3.3

Referencias

Lawson, Mark V. (2004). Autómatas finitos . Chapman y Hall / CRC. ISBN 978-1-58488-255-8. Zbl 1086.68074 .
Sipser, Michael (1997). "1.4: Idiomas no regulares". Introducción a la Teoría de la Computación . Publicación de PWS. págs. 77–83 . ISBN 978-0-534-94728-6. Zbl 1169.68300 .
Hopcroft, John E .; Ullman, Jeffrey D. (1979). Introducción a la teoría, los lenguajes y la computación de los autómatas . Reading, Massachusetts: Addison-Wesley Publishing. ISBN 978-0-201-02988-8. Zbl 0426.68001 . (Ver capítulo 3.)
Bakhadyr Khoussainov; Anil Nerode (6 de diciembre de 2012). Teoría de los autómatas y sus aplicaciones . Springer Science & Business Media. ISBN 978-1-4612-0171-7.

[1] Rabin, Michael ; Scott, Dana (abril de 1959). "Autómatas finitos y sus problemas de decisión" (PDF) . Revista de investigación y desarrollo de IBM . 3 (2): 114-125. doi : 10.1147 / rd.32.0114 . Archivado desde el original el 14 de diciembre de 2010.CS1 maint: URL no apta ( enlace ) Aquí: Lema 8, p.119

[2] Bar-Hillel, Y .; Perles, M .; Shamir, E. (1961), "Sobre las propiedades formales de las gramáticas de estructura sintagmática simple", Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung , 14 (2): 143-172

[3] John E. Hopcroft; Rajeev Motwani; Jeffrey D. Ullman (2003). Introducción a la teoría, los lenguajes y la computación de los autómatas . Addison Wesley. Aquí: Sección 4.6, p.166

[BLRS86-4] Berstel, Jean; Lauve, Aaron; Reutenauer, Christophe; Saliola, Franco V. (2009). Combinatoria de palabras. Christoffel palabras y repeticiones en palabras . Serie de monografías CRM. 27 . Providence, RI: Sociedad Matemática Estadounidense . pag. 86. ISBN 978-0-8218-4480-9. Zbl 1161.68043 .

[5] Savitch, Walter (1982). Máquinas abstractas y gramáticas . pag. 49 . ISBN 978-0-316-77161-0.

[6] John E. Hopcroft y Jeffrey D. Ullman (1979). Introducción a la teoría, los lenguajes y la computación de los autómatas . Lectura / MA: Addison-Wesley. ISBN 978-0-201-02988-8.Aquí: p. 72, Ejercicio 3.2 (que da una versión un poco menos general, que requiere | w | = p ) y 3.3

[1]