gramática léxica


En informática , una gramática léxica es una gramática formal que define la sintaxis de los tokens . El programa está escrito utilizando caracteres definidos por la estructura léxica del lenguaje utilizado. El conjunto de caracteres es equivalente al alfabeto utilizado por cualquier idioma escrito. La gramática léxica establece las reglas que rigen cómo se divide una secuencia de caracteres en subsecuencias de caracteres, cada parte de las cuales representa una ficha individual. Esto se define frecuentemente en términos de expresiones regulares . [1]

Por ejemplo, la gramática léxica de muchos lenguajes de programación especifica que un literal de cadena comienza con un " carácter y continúa hasta que se encuentra una coincidencia " ( escapar hace que esto sea más complicado), que un identificador es una secuencia alfanumérica (letras y dígitos, generalmente también permitiendo guiones bajos y no permitiendo dígitos iniciales), y que un literal entero es una secuencia de dígitos. Entonces, en la siguiente secuencia de caracteres "abc" xyz1 23, los tokens son cadena , identificador y número(más tokens de espacio en blanco) porque el carácter de espacio termina la secuencia de caracteres que forman el identificador. Además, ciertas secuencias se clasifican como palabras clave ; generalmente tienen la misma forma que los identificadores (generalmente palabras alfabéticas), pero se clasifican por separado; formalmente tienen un tipo de token diferente. [2]