Riassunto

Grammatica / Linguaggi liberi (context-free)

Una grammatica è libera se ogni produzione è del tipo:
$A \to α$
dove $A$ è un singolo non-terminale e $α$ è una stringa composta da terminali e/o non-terminali.
Un linguaggio $L$ è libero se e solo se esiste una grammatica $G$ libera tale che $L = L (G)$ .

Pumping lemma per linguaggi liberi

Il negato di questo lemma ci permette di dimostrare che non esiste una determinata grammatica libera che genera un dato linguaggio.

Enunciato

Sia $L$ un linguaggio libero. Allora:

\exists p \in N^{+} t.c. \forall z \in L, | z | \geq p, \exists u, v, w, x, y t.c.

$z = u v w x y$
$| v w x | \leq p$
$| v x | > 0$
$\forall i \in N (anche nullo), u v^{i} w x^{i} y \in L$

Proprietà

I linguaggi liberi sono chiusi per UNIONE, CONCATENAZIONE ma NON per intersezione.

Espressioni regolari

Valgono:

Operazione	Sintassi	Linguaggio
ALTERNANZA	$r ∣ s$	$L (r) \cup L (s)$
CONCATENAZIONE	$r \cdot s$	$L (r) L (s)$
MOLTEPLICITÀ	$r^{*}$	${ε} \cup {w_{1} \dots w_{k} \dots}$
PRECEDENZA	$(r)$

Precedenze

* > \cdot > ∣

Esempio:

$a ∣ b^{*} c ⟶ (a ∣ ((b^{*}) \cdot c))$

Conversioni

Da un'espressione regolare è possibile:

Ottenere un NFA utilizzando la costruzione di Thompson $\Rightarrow$ simulare l'NFA.
- Ottenere un DFA dato l'NFA utilizzando la subset construction $\Rightarrow$ simulare il DFA.
  - Ottenere un DFA minimo dato un DFA utilizzando il partition refinement.

Simulazione di un NFA

Si parte da $T_{0}$ , che contiene lo stato iniziale più quelli a cui possiamo arrivare facendo una $ε$ -transizione.
A questo punto prendiamo il primo carattere della parola analizzata e facciamo una transizione di quel carattere.
Facciamo pure una $ε$ -chiusura e aggiungiamo gli stati raggiunti.
Prendiamo ora il secondo carattere e ripartiamo con la procedura.
Se $T_{l a s t}$ (l'ultimo insieme di stati raggiunto) contiene uno stato finale, allora la parola $\in L$ (appartiene al linguaggio).

Costo: $O (| w | \cdot (n + m))$

Trasformazione di un NFA in DFA

La procedura segue questi passaggi:

Inizio: Si parte da $T_{0}$ , che contiene lo stato iniziale più tutti quelli raggiungibili tramite $ε$ -transizioni.
Costruzione Tabella: Si crea una tabella dove:
- Sulle righe si pongono i vari insiemi di stati $T_{n}$ .
- Sulle colonne si pongono tutti i terminali dell'alfabeto.
Iterazione:
- Partendo da $T_{0}$ , per ogni terminale nelle colonne si calcola la transizione, creando così un nuovo stato del DFA.
- Nota bene: Bisogna ricordarsi di calcolare la $ε$ -chiusura (o $ε$ -transizione) per ognuno degli stati così ottenuti!

Minimizzare un DFA

Bisogna intanto essere sicuri che il DFA sia totale, ovvero che ogni stato abbia una transizione per tutti i terminali. Se non è così, si aggiunge un SINK a cui si fanno arrivare tutte le transizioni mancanti.

A questo punto si inseriscono in un set tutti gli stati non finali ed in un altro set tutti gli stati finali. A questo punto si parte con le n-equivalenze.

Due stati appartengono allo stesso set se:

La transizione di entrambi finisce nello stesso set.
La transizione di entrambi finisce nello stesso stato.

Se queste condizioni non valgono, i due stati non appartengono allo stesso set.

Linguaggi regolari

Un linguaggio $L$ si dice regolare se e solo se:

$⟺$ esiste un'espressione regolare $r$ t.c. $L = L (r)$
$⟺$ esiste un NFA $N$ t.c. $L = L (N)$
$⟺$ esiste un DFA $D$ t.c. $L = L (D)$
$⟺$ esiste una grammatica regolare $G$ t.c. $L = L (G)$

Gerarchia delle Grammatiche

Ricordiamo che ogni grammatica regolare è anche una grammatica libera (context-free).

Proprietà di Chiusura

I linguaggi regolari sono chiusi rispetto alle seguenti operazioni:

UNIONE
CONCATENAZIONE
COMPLEMENTAZIONE
INTERSEZIONE

Pumping lemma per linguaggi regolari

Sia $L$ un linguaggio regolare. Allora:

\exists p \in N^{+} t.c. \forall z \in L : | z | \geq p

\exists u, v, w t.c. z = u v w & | u v | \leq p & | v | > 0

& \forall i \geq 0, u v^{i} w \in L

FIRST

In linea generica, il FIRST di una stringa (di terminali / non-terminali) è il primo carattere che compare in ogni produzione di quella stringa.

Dunque:

Per una produzione del tipo $X \to ε$ :
$F i r s t (X) = {ε}$
Per ogni produzione con inizio di un terminale ( $X \to a \dots$ ):
$F i r s t (X) = {a}$
Per ogni produzione del tipo $X \to Y_{1} Y_{2} \dots Y_{n}$ con $Y_{i}$ terminali o non-terminali:
- Se $ε \notin F i r s t (Y_{1}) ⟹ F i r s t (X) = F i r s t (Y_{1})$
- Se $ε \in F i r s t (Y_{1}) ⟹ F i r s t (X) = {F i r s t (Y_{1}) - ε} \cup F i r s t (Y_{2} \dots Y_{n})$

Per calcolare $F i r s t (Y_{2} Y_{3} \dots Y_{n})$ si rieseguono i passaggi del punto 3 ricorsivamente finché non si incontra un $F i r s t$ che non contenga $ε$ .

Se $ε \in F i r s t (Y_{n})$ (ovvero tutti i componenti della produzione possono annullarsi), allora:

F i r s t (X) = F i r s t (X) \cup {ε}

FOLLOW

In linea generica il FOLLOW di una stringa (di non-terminali) è l'insieme dei terminali che seguono la stringa in qualche derivazione.

Procedura di calcolo

Inizio: Come primo passo si aggiunge il simbolo $ (fine input) ai follow dello start symbol.
Iterazione: Per ogni produzione del tipo $B \to A β$ (dove $A$ è un non-terminale e $β$ è la stringa che segue):
- Se $β \neq ε$ :
  $F o l l o w (A) .add (F i r s t (β) ∖ {ε})$
- Se $β = ε \lor ε \in F i r s t (β)$ :
  $F o l l o w (A) .add (F o l l o w (B))$

Nello schema sopra, A rappresenta un non-terminale e $β$ è la stringa che lo segue all'interno di una produzione.

Parsing Top-Down: LL(1) parser

Sta per "Left-to-Right Leftmost" parser. Prende in input una parola e la parsing table e restituisce in output la derivazione leftmost per ottenere la parola (se $\in L (G)$ ), altrimenti restituisce un errore.

Procedimento

Calcolare First e Follow di ogni non-terminale.
Costruire la tabella di parsing.
Riconoscimento della parola usando uno stack e la parsing table.

Il punto 1 l'abbiamo già esplorato in precedenza.

(2) Costruzione della tabella di parsing

Innanzitutto si crea una tabella con:

I NON terminali sulle righe.
I terminali sulle colonne.

Si prende poi ogni produzione della grammatica e si applica la seguente logica:

Algoritmo di riempimento:

foreach $(A \to α)$ :

foreach (terminale $b \in F i r s t (α)$ ):

inserire $A \to α$ nella entry $[A, b]$ della tabella

if $ε \in F i r s t (α)$ :

foreach (terminale $x \in F o l l o w (A)$ ):

inserire $A \to α$ nella entry $[A, x]$

(3) Grammatica LL(1)

Se la tabella di parsing non ha più di una produzione per una certa cella (non ha "multiple defined entries"), allora la grammatica è LL(1).

Riconoscimento della parola

In questa fase ci servono:

La parola $w$ (a cui attacchiamo alla fine il simbolo $$$ ).
Uno stack (in cui pushiamo subito $$ S$ ).

Procedimento

L'algoritmo legge la parola e utilizza lo stack per verificare la correttezza della derivazione:

stack s;
s.push($); 
s.push(S); // S è lo start symbol
x = s.top();

while (x != $) {
    b = read(); // legge un carattere dalla parola

    if (x == b) {
        s.pop();
    } 
    else if (x is terminal || M[x, b] is error) {
        error();
    } 
    else if (M[x, b] == A -> Y1 ... Yn) {
        s.pop();
        s.push(Y1 ... Yn); // Push dei simboli della produzione
    }
    
    x = s.top();
}

// Se il ciclo termina correttamente: w ∈ L

Nota sulla funzione read()

La funzione read() legge un carattere alla volta dalla parola in input.

Tips per riconoscere se una grammatica è LL(1)

Data una grammatica $G$ con produzioni nel formato $A \to α ∣ β$ , allora:

Se $F i r s t (α) \cap F i r s t (β) = \emptyset ⟹ G$ è $L L (1)$
Se $ε \in F i r s t (α)$ , allora $F i r s t (β) \cap F o l l o w (A) = \emptyset ⟹ G$ è $L L (1)$
Se $ε \in F i r s t (β)$ , allora $F i r s t (α) \cap F o l l o w (A) = \emptyset ⟹ G$ è $L L (1)$

Casi di non-LL(1):

Le grammatiche ricorsive sinistre NON sono $L L (1)$
Le grammatiche fattorizzabili a sinistra NON sono $L L (1)$
Le grammatiche ambigue NON sono $L L (1)$

Rimuovere la ricorsione a sinistra

Generalmente, dato lo schema:

A \to A α_{1} ∣ \dots ∣ A α_{n} ∣ β_{1} ∣ \dots ∣ β_{k}

con $α_{j} \neq ε$ e $β_{i} \neq A γ$

Si trasforma in:

A \to β_{1} A^{'} ∣ \dots ∣ β_{k} A^{'}

A^{'} \to α_{1} A^{'} ∣ \dots ∣ α_{n} A^{'} ∣ ε

In breve

Le produzioni non affette da ricorsione le tieni, ma ci attacchi $A^{'}$ . Le altre le sposti in $A^{'}$ ma senza la $A$ ricorsiva iniziale.

Ricorsione sinistra non immediata

In caso di ricorsione sinistra non immediata, si sostituiscono le produzioni del 1° NON-terminale nel 2° NON-terminale.

Esempio:

Dati i seguenti passaggi:

A \to B a ∣ b

B \to B c ∣ A d ∣ b

In questo caso, abbiamo una ricorsione sinistra su $A$ (indiretta): $A \Rightarrow B a \Rightarrow A d A$ .

1. Procediamo per sostituzione

Sostituiamo le produzioni di $A$ all'interno di $B$ dove compare il simbolo non-terminale $A$ .

La produzione $B \to A d$ diventa quindi:

B \to B a d ∣ b d

Otteniamo quindi la grammatica aggiornata:

A \to B a ∣ b

B \to B c ∣ B a d ∣ b d ∣ b

2. Togliamo ora la ricorsione (immediata)

Applichiamo l'algoritmo standard per eliminare la ricorsione sinistra su $B$ :

A \to B a ∣ b

B \to b d B^{'} ∣ b B^{'}

B^{'} \to c B^{'} ∣ a d B^{'} ∣ ε

Fattorizzazione a sinistra

Data una grammatica del tipo:

A \to α β_{1} ∣ \dots ∣ α β_{n} ∣ γ_{1} ∣ \dots ∣ γ_{k}

Questa si trasforma in:

A \to α A^{'} ∣ γ_{1} ∣ \dots ∣ γ_{k}

A^{'} \to β_{1} ∣ \dots ∣ β_{n}

E si continua iterativamente finché la grammatica non diventa LL(1).

Rimuovere le ambiguità

Non esiste un vero e proprio algoritmo universale, ma generalmente si segue questa regola logica:

Si cerca di tenere nelle prime derivazioni (quelle più vicine allo start symbol) i caratteri/operatori con minore priorità, e nelle ultime derivazioni quelli con maggiore priorità. In questo modo, nell'albero di derivazione, gli operatori con maggiore priorità si troveranno più in basso (e verranno quindi valutati per primi).

Esempio pratico

Data la grammatica ambigua:

S \to S a S ∣ S b S ∣ S c S ∣ i d

Con priorità degli operatori: $c > b > a$ .

La grammatica trasformata diventa:

Livello priorità bassa ( $a$ ): $S \to S a E ∣ E$
Livello priorità media ( $b$ ): $E \to E b T ∣ T$
Livello priorità alta ( $c$ ): $T \to T c Q ∣ Q$
$Q \to i d$

SLR(1)

Sta per Simple Left-to-right Rightmost parser. Siamo nel Bottom-Up parsing.

Procedimento

Costruzione dell'automa
Costruzione della tabella di parsing
Riconoscimento della parola

1. Costruzione dell'automa

Si parte dallo stato 0 che contiene $S^{'} \to ∙ S$ e si aggiungono tutte le produzioni del tipo $S \to ∙ \dots$ .
A questo punto, per tutti i caratteri che si trovano dopo il punto, creiamo uno stato.
Dobbiamo poi visitare ognuno di quelli, spostando in avanti il $∙$ (per quella relativa produzione).
Quando il $∙$ arriva in fondo alla produzione, lo stato che contiene quella produzione è "SPECIALE".
Lo stato con la produzione $S^{'} \to S ∙$ è detto ACCETTATO.

2. Costruzione della tabella di parsing

Creiamo una tabella che ha nelle righe tutti gli stati (da $0$ a $n$ ) e nelle colonne tutti i terminali + $ + i non terminali.
Ci calcoliamo i First e i Follow dei non terminali.

Ci sono essenzialmente 4 casi per il riempimento:

Caso 1: Se abbiamo una transizione del tipo $T (n_{1}, γ) = n_{2}$ dove $γ$ è un terminale:
- Inseriamo in $M [n_{1}, γ] = s n_{2}$ (ovvero shift allo stato $n_{2}$ ).
Caso 2: Se abbiamo una transizione del tipo $T (n_{1}, Y) = n_{2}$ dove $Y$ è un non terminale:
- $M [n_{1}, Y] = n_{2}$ (ovvero go-to allo stato $n_{2}$ ).
Caso 3: Nella cella $M [stato Accettato, $]$ inseriamo Acc.
Caso 4: Mancano ora gli stati speciali. Per ognuno di questi eseguiamo i semplici passi:
Per ogni produzione che presenta il $∙$ alla fine (stato speciale):
1. Si individua il non-terminale driver (quello a sinistra della produzione, es. $A$ in $A \to α ∙$ ).
2. Si recupera l'insieme $F o l l o w (d r i v e r)$ .
3. Si riempie la tabella come segue:
$M [stato speciale, \forall follow (driver)] = produzione$

3. Riconoscimento della parola

L'algoritmo vero e proprio serve per ottenere il parsing di una parola $w$ . Se $w \in L (G)$ l'algoritmo ha successo, altrimenti restituisce error().

Configurazione iniziale:

Stringa di input: $w$ seguita dal simbolo $$$ .
stSt: Stack per gli stati.
symSt: Stack per i simboli.

Algoritmo

b = first_symbol_in_the_input_buffer;
stSt.push(0); // Inizializza lo stack degli stati con lo stato 0

while (true) {
    S = stSt.top();

    if (M[S, b] == shift T) {
        symSt.push(b);      // Push del simbolo letto
        stSt.push(T);       // Push del nuovo stato
        b = next_symbol();  // Avanza nell'input
    }
    else if (M[S, b] == reduce A -> beta) {
        pop |beta| symbol off symSt; // Rimuove simboli pari alla lunghezza di beta
        symSt.push(A);               // Push del non-terminale driver
        pop |beta| state off stSt;   // Rimuove gli stati corrispondenti
        stSt.push(M[stSt.top(), symSt.top()]); // Esegue il GOTO
		print(A -> beta);
    }
    else if (M[S, b] == Accept) {
	    return; // Parsing completato con successo
	}
	else {
	    error(); // Errore di sintassi
	}
}

Generazione del codice intermedio

Questa fase si occupa di tradurre le istruzioni della grammatica in un linguaggio intermedio (solitamente simile all'assembly o a tre indirizzi) utilizzando degli attributi sintetizzati o ereditati.

Produzione $P \to S$

Logica: Si crea una nuova etichetta per segnare la fine dello statement.
Regole:
- $S . n e x t = n e w l a b e l ()$
- $P . c o d e = S . c o d e ▸ l a b e l (S . n e x t)$

Produzione $S \to i f (B) S_{1}$

Logica: Se la condizione $B$ è vera, si salta al codice di $S_{1}$ .
Regole:
- $B . t r u e = n e w l a b e l ()$
- $B . f a l s e = S_{1} . n e x t = S . n e x t$
- $S . c o d e = B . c o d e ▸ l a b e l (B . t r u e) ▸ S_{1} . c o d e$

Produzione $S \to i f (B) S_{1} else S_{2}$

Logica: Vengono create etichette separate per i rami true e false. Al termine del ramo true è necessario un salto incondizionato alla fine dello statement.
Regole:
- $B . f a l s e = n e w l a b e l ()$
- $B . t r u e = n e w l a b e l ()$
- $S_{1} . n e x t = S . n e x t$
- $S_{2} . n e x t = S . n e x t$
- $S . c o d e = B . c o d e ▸ l a b e l (B . t r u e) ▸ S_{1} . c o d e ▸ g e n (g o t o S . n e x t) ▸ l a b e l (B . f a l s e) ▸ S_{2} . c o d e$

Produzione $S \to while (B) S_{1}$

Logica: Viene definita un'etichetta iniziale per consentire il salto all'indietro alla fine del corpo del ciclo. La condizione $B$ determina se eseguire $S_{1}$ o saltare alla fine dello statement.
Regole:
- $begin = new label()$
- $B . true = new label()$
- $B . false = S . next$
- $S_{1} . next = begin$
- $S . code = label(begin) ▸ B . code ▸ label (B . true) ▸ S_{1} . code ▸ gen (goto begin)$

Riassunto

Grammatica / Linguaggi liberi (context-free)

Pumping lemma per linguaggi liberi

Enunciato

Proprietà

Espressioni regolari

Precedenze

Conversioni

Simulazione di un NFA

Trasformazione di un NFA in DFA

Minimizzare un DFA

Linguaggi regolari

Proprietà di Chiusura

Pumping lemma per linguaggi regolari

FIRST

FOLLOW

Procedura di calcolo

Parsing Top-Down: LL(1) parser

Procedimento

(2) Costruzione della tabella di parsing

(3) Grammatica LL(1)

Riconoscimento della parola

Procedimento

Tips per riconoscere se una grammatica è LL(1)

Casi di non-LL(1):

Rimuovere la ricorsione a sinistra

Ricorsione sinistra non immediata

1. Procediamo per sostituzione

2. Togliamo ora la ricorsione (immediata)

Fattorizzazione a sinistra

Rimuovere le ambiguità

Esempio pratico

SLR(1)

Procedimento

1. Costruzione dell'automa

2. Costruzione della tabella di parsing

3. Riconoscimento della parola

Algoritmo

Generazione del codice intermedio

Produzione P→S

Produzione S→if(B)S1

Produzione S→if(B)S1 else S2

Produzione S→while (B)S1

Produzione $P \to S$

Produzione $S \to i f (B) S_{1}$

Produzione $S \to i f (B) S_{1} else S_{2}$

Produzione $S \to while (B) S_{1}$