形式语言与自动机八上下文无关文法、及其二义性、对二义性文法的正规化

语法分析的数学基础。

正则语言不能描述所有的语言，因此引入上下文无关文法(注意它也不能描述所有的语言，只是相对正则语言，描述范围增大)

它的功能比RE和DFA要强许多，可以描述句子的结构！！！

对于嵌套结构，比如程序中的括号非常有用，上下文无关文法可以处理

文法四元组定义：

$G=<V_N,V_T,S,P>$

之前用正则语言比较难以定义下面这个语言，但是现在用上下文无关语言，就很容易定义这个

CFG产生式如下形式：

变量—>（变量 |终结符）* 形式化：$A->\alpha , A\sub V_N,\alpha\sub (V_T \cup V_N)^*$

在使用上下文无关文法产生式的时候，名字"上下文无关"由来：

$S->0S1 ,S=>00S11 $ 替换的时候对于S不用管S的左边0，右边1；而是直接替换(可以说产生式头的核心，其核心左右边有无东西，意义不大，不影响，因此可以忽略，认为左边产生式头只有一个)

对于$0S->0S11$, 我们需要"瞻前顾后"，只有字符串是0S的时候，才可以被替换为0S11;(产生式头不只一个核心，核心左右也有非常重要的字符，需要观察配对)

$\{V_T=\{0,1\},V_N=\{S\},S,\{S->01,S->0S1\}\}$

迭代式推导（间接推导）：$=>^*$

上面$E+E,a+E,a+E*E,a+1*E$ 含有非终结符的叫做句型；(语法单位与串的混合；全部变量，和全部终结符也是特殊句型)

$a+1*0$不含有非终结符的叫做句子。

————————————————————————————

$w$ 是终结符号串，$S$是开始符号

$G=<V_N,V_T,S,\epsilon>$

$L(G)={w|S=>^*w,w\in V_T^*}$

正则语言一定是上下文无关语言(可以由上下文无关文法强于正规文法的角度看)

实际应用（编程）中，可以对CFG进行扩充，最著名BNF范式：

$::= , |,…(一到多),$ 正规式用 +，前面Lex还用花括号{1，2，3，4}，不同规范定义一到多标准不一样，但是含义都一样。

BNF转CFG

分析树：

其实：每一个最左推导/最右推导对应一个语法树

等价定义

二义性是文法的性质不是语言的性质

二义性文法可以改造，改造之后可以消除二义性

为了避免随机选择候选式不成功引起回溯，我们采用"看当前输入串的第一个字符"的方式，根据这个字符再选择合适的候选式，这样就没有回溯了。

这样就不用找无二义性文法，即使没有二义性也能给它改造成无二义性

但是！！，有些文法是必须有二义性的(固有二义性)，这样我们就没办法了。

面对二义性带来的不确定性，只要采用一套标准的正则化方法，就可以消除一部分二义性带来的问题。

由于原来的一般CFG，存在文法二义性，在推导的过程会引起回溯；现在我们改造一下文法，让其推导过程没有回溯，而这个对产生式形式进行限制，就是我们的具体变换。使其变换后与原来可以达到相同的功能；另一方面，也可以简化文法，比如消除 $A->\epsilon$

生成式的标准形式 (1) Chomsky范式： $A->BC,A->a,A,B,C\in V_N,a\in V_T$ (只有这两种产生式模子)
(2) Greibash范式：生成式形式为$A->a\beta,a\in V_T,\beta\in V_N^*$ 对每个上下文无关语言都可以找到一个语言，使产生式右端都以终结符开始 (思想：消除左递归，只有一种模子)