Gramática indexadaLas gramáticas indexadas son una generalización de gramáticas libres de contexto en que los símbolos no terminales están equipados con listas de banderas o símbolos de índice. El lenguaje producido por una gramática indexada se denomina lenguaje indexado. DefiniciónDefinición moderna por Hopcroft y UllmanEn publicaciones contemporáneas siguiendo a Hopcroft y Ullman (1979), [2] una gramática indexada se define formalmente como un 5-tuplo G = ⟨N, T, F, P, S⟩ donde
Tanto en producciones como en derivaciones de gramáticas indexadas, una cadena ("pila") σ ∈ F * de símbolos de índice se adjunta a cada símbolo no terminal A ∈ N, denotado por A [σ]. Los símbolos terminales pueden no ser seguidos por pilas de índice. Para una pila de índices σ ∈ F * y una cadena α ∈ (N ∪ T) * de símbolos no terminales y terminales, α [σ] denota el resultado de unir [σ] a cada no terminal en α; por ejemplo si α es igual a B C d E con a, d ∈ T terminal, y B, C, E ∈ N símbolos no terminales, entonces α [σ] denota un B [σ] C [σ] d E [σ]. Usando esta notación, cada producción en P tiene que ser de la forma
donde A, B ∈ N son símbolos no terminales, f ∈ F es un índice, σ ∈ F * es una cadena de símbolos de índice, y α ∈ (N ∪ T) * es una cadena de símbolos no terminales y terminales. Algunos autores escriben ".." en lugar de "σ" para la pila de índice en las reglas de producción; entonces la regla de tipo 1, 2 y 3 se leen A [..] → α [..], A [..] → B [f ..], y A [f ..] → α [..] , respectivamente. Las derivaciones son similares a las de una gramática libre de contexto, excepto por la pila de índice asociada a cada símbolo no terminal. Cuando una producción como, por ejemplo, A [σ] → B [σ] C [σ] es aplicada, la pila de índice de A se copia a B y C. Además, una regla puede insertar un símbolo de índice en la pila o extraer su "máximo" (es decir, , más a la izquierda) símbolo de índice. Formalmente, la relación ⇒ ("derivación directa") se define en el conjunto (N [F *] ∪T) * de "formas oracionales" de la siguiente manera:
Como de costumbre, la relación de derivación * ⇒ se define como el cierre transitivo reflexivo de la derivación directa ⇒. El lenguaje L (G) = {w ∈ T *: S * ⇒ w} es el conjunto de todas las cadenas de símbolos terminales derivables del símbolo de inicio. Definición original por AhoHistóricamente, Alfred Aho (1968) introdujo la gramática indexada utilizando un formalismo diferente. Aho definió una gramática indexada como un 5-tuplo (N, T, F, P, S) donde
Las derivaciones directas fueron las siguientes:
Este formalismo es, por ejemplo utilizado por Hayashi (1973, p 65-66)..[3] EjemplosEn la práctica, montones de índices pueden contar y recordar qué reglas se aplicaron y en qué orden. Por ejemplo, las gramáticas indexadas pueden describir el lenguaje contextual de palabras triples {www: w ∈ {a, b} *}:
Una derivación de abbabbabb es entonces
Como otro ejemplo, la gramática G = ⟨{S, T, A, B, C}, {a, b, c}, {f, g}, P, S⟩ produce el lenguaje {: n ≥ 1}, donde el conjunto de producción P consiste en
Un ejemplo de derivación es
Se sabe que ambos lenguajes de ejemplo no están libres de contexto. PropiedadesHopcroft y Ullman tienden a considerar los lenguajes indexados como una clase "natural", ya que son generados por varios formalismos distintos de las gramáticas indexadas, a saber.[4]
Hayashi generalizó el lema de bombeo a gramáticas indexadas. En cambio, Gilman.[8][9] da un "lema de contracción" para los idiomas indexados. Gramáticas indexadas linealesGerald Gazdar ha definido una segunda clase, las gramáticas indexadas lineales (LIG), al requerir que se especifique como máximo recibir un no terminal en cada producción, mientras que en una gramática indexada ordinaria, todos los no terminales reciben copias de la pila. Formalmente, una gramática indexada lineal se define similar a una gramática indexada ordinaria, pero los requisitos de la forma de la producción se modifican para:
donde A, B, f, σ, α se usan como arriba, y β ∈ (N ∪ T) * es una cadena de símbolos no terminales y terminales como α. Además, la relación de derivación directa ⇒ se define similar a la anterior. Esta nueva clase de gramáticas define una clase estrictamente más pequeña de idiomas, que pertenece a las clases levemente sensibles al contexto. El lenguaje {www: w ∈ {a, b} *} es generable por una gramática indexada, pero no por una gramática indexada lineal, mientras que {ww: w ∈ {a, b} *} y {: n ≥ 1} son generables por una gramática indexada lineal. Si se admiten las reglas de producción original y modificada, la clase de idioma sigue siendo los idiomas indexados.[10] EjemploSi dejamos σ denotar una colección arbitraria de símbolos de pila, podemos definir una gramática para el lenguaje L = { | n ≥ 1} como
Para derivar la cadena abc tenemos los pasos S [] ⇒ aS [f] c ⇒ aT [f] c ⇒ aT [] bc ⇒ abc. Del mismo modo: S [] ⇒ aS [f] c ⇒ aaS [ff] cc ⇒ aaT [ff] cc ⇒ aaT [f] bcc ⇒ aaT [] bbcc ⇒ aabbcc. Poder computacionalLos lenguajes indexados linealmente son un subconjunto de los lenguajes indexados y, por lo tanto, todos los LIG se pueden recodificar como IG, lo que hace que los LIG sean estrictamente menos poderosos que los IGs. Una conversión de un LIG a un IG es relativamente simple. Las reglas LIG en general se ven aproximadamente como ,módulo de la parte push / pop de una regla de reescritura. Los símbolos y representan cadenas de símbolos terminales y / o no terminales, y cualquier símbolo no terminal en cualquiera de ellos debe tener una pila vacía, por la definición de un LIG. Esto es, por supuesto, en contra de cómo se definen los IGs: en un IG, los no terminales cuyas pilas no se empujan o se sacan deben tener exactamente la misma pila que el no terminal reescrito. Por lo tanto, de alguna manera, necesitamos tener no terminales en y que, a pesar de tener pilas no vacías, se comporten como si tuvieran pilas vacías Consideremos la regla como ejemplo de caso. Al convertir esto en un IG, el reemplazo de debe ser algo como que se comporte exactamente como independientemente de lo que sea . Para lograr esto, podemos simplemente tener un par de reglas que tome cualquier donde no esté vacío, y muestre símbolos de la pila. Entonces, cuando la pila está vacía, se puede volver a escribir como .
Podemos aplicar esto en general para derivar un IG de un LIG. Entonces, por ejemplo, si el LIG para el lenguaje { } es el siguiente: La regla sentencial aquí no es una regla IG, pero usando el algoritmo de conversión anterior, podemos definir nuevas reglas para cambiando la gramática a: Cada regla ahora se ajusta a la definición de IG, en la que todos los no terminales en el lado derecho de una regla de reescritura reciben una copia de la pila del símbolo reescrito. Las gramáticas indexadas son capaces de describir todos los lenguajes que las gramáticas indexadas linealmente pueden describir. Relación con otro formalismoVijay-Shanker y Weir (1994) demuestran que las gramáticas indexadas lineales, las gramáticas categoriales combinatorias, las gramáticas de adyacencia de árbol y las gramáticas principales definen la misma clase de lenguajes de cuerdas. Su definición formal de gramáticas indexadas lineales difiere de la anterior. Los LIG (y sus equivalentes débiles) son estrictamente menos expresivos (lo que significa que generan un subconjunto propio) que los lenguajes generados por otra familia de formalismo débilmente equivalente, que incluyen: LCFRS, MCTAG, MCFG y gramáticas minimalistas (MG). La última familia puede (también) ser analizada en tiempo polinomial. Gramáticas indexadas distribuidasOtra forma de gramáticas indexadas, introducida por Staudacher (1993), es la clase de gramáticas de índice distribuido (DIG). Lo que distingue a los DIG de las gramáticas indexadas de Aho es la propagación de índices. A diferencia de los IGs de Aho, que distribuyen la pila de símbolos completa a todos los no terminales durante una operación de reescritura, los DIG dividen la pila en subbases y distribuyen las subbases a no terminales seleccionados. El esquema de regla general para una regla de distribución binaria de DIG es la forma
Donde α, β y γ son cadenas terminales arbitrarias. Para una cadena ternariamente distribuida:
Y así sucesivamente para números más altos de no terminales en el lado derecho de la regla de reescritura. En general, si hay m no terminales en el lado derecho de una regla de reescritura, la pila se divide de dos maneras y se distribuye entre las nuevas no terminales. Tenga en cuenta que hay un caso especial en el que una partición está vacía, lo que hace que la regla sea una regla LIG. Los lenguajes del Índice Distribuido son, por lo tanto, un superconjunto de los idiomas de Índice Lineal. Véase tambiénNotasReferencias
Enlaces externos |