形式语言与自动机七词法分析 - 代码天地

形式语言与自动机七词法分析

其他 2020-06-22 16:28:08 阅读次数: 0

词法分析

3型文法与我们前面讲的正则表达式、自动机家族(DFA、NFA、e-NFA)都是等价的。是描述正则语言的不同角度

3型文法（正规文法）从格式上有其特点：

\(A->\alpha B\) 或者 \(A -> \alpha\) 其中\(\alpha\)是终结符构成的字符串。

2型文法(上下文无关文法)也可以看出其特点：

\(A - > \beta\) 其中\(\beta\)是终结符或者非终结符构成的字符串

3型文法的严格定义用上面的四元组表示，S是开始符号，P是产生式集合。

3型文法中的左线性文法:

如上面所示，非终结符B在左边

右线性文法：

非终结符在右边(这个好，我们后面再说)

正规文法与有限状态自动机的等价性

正规文发与有限自动机定义的语言是一样的，功能也是一样的

正则表达式、正规文法、有限自动机这3个都是研究正规语言定义的工具

这道题比较典型的解释了，正规文法转自动机的过程

这里我们使用正规文法的四元式形式转有限自动机的五元组形式

有正规文法的产生式形式可以得到正规文法的四元组形式；再把四元组形式转有限自动机的五元组形式，进而可以转换成状态转移图形式。

\(\{V_N,V_T,S_0,P\}\) \(S_0\)表示初始状态 P表示这些产生式集合

自动机的五元组形式：

\(\{Q,\Sigma,\delta,q_0,F\}\) \(q_0\)表示初始状态 F表示结束状态集合

\(Q=V_N,\Sigma=V_T,\delta—P,q_0=S_0,F\) 是接受状态

每一个右线性文法都有对应的有限自动机

自动机转右线性文法

正规文法等价于正则式等价于有限自动机

有些语言容易用正规文法、有些容易用正则式、还有些容易用有限自动机表示

推导过程就是文法生成语言的过程

正规式转正规文法

例题

正规文法转正规式

规则

例题：

注意最后一步的经验，这在好多地方都用得到

词法分析的目的：扫描源程序的字符串，识别每一个单词，并将其表示成内部表示形式，即Token流。

其实就是把输入的单个字符(注意输进去的时候是一个一个的字符，把这些字符组成单词，有意义的单词)

词法分析过程也有一个目的是发现错误单词(比如18..23，val#ue),像这样的错误得能够识别出来

把字符->单词->语法单位

词法分析的工具：文法、有限自动机、正则表达式

Token的表示：<种属，值> 其中值是可以省略的，也就是把2元，减少到1元<种属，_>

Linux/Unix 回车换行用一个ASCII表示

Win回车/换行用2个ASCII表示

这也就是有些编程语言平台不兼容的原因

写出上面的字符流 Token流

注意由于实际的ASCII码文件最后有一个EOF，所以也要加上EOF。我们词法分析类似于干上面这件事。。

语法分析概要

语法分析就是把词法分析确定出来的Token流，依照上下文无关文法确定的语法规则，转化为语法单位。说白了，就是看Token之间都有哪些关系

语法分析可以把token流合并，一直尽量合并，看看最终合并不了的时候，得到的这个结构会不会是语法框架(比如，看看合并的for语句满不满足for语法框架)

从语法分析树到中间表示

优化

目标代码

进行编译原理上面这些过程要用到一些表，保留字表，常数表、符号表。

做好表我们可以进行了

表的用途主要两方面：填|查

编译一次程序通常得扫5遍：

第一遍：词法分析扫ASCII

第二遍：语法分析扫Token

第三遍：语义分析扫语法树

第四遍：代码优化扫中间表示

第五遍：目标代码扫优化后的中间表示

每遍扫描后的输出，可以有内部表示(内存中数据结构)，也可以有外部表示(存文件中)

词法分析、语法分析、语义分析比较成熟，可以打包，叫做LLVM。我们拿着LLVM做代码优化、目标代码生成(GCC就是这样，LINUX下的)

词法分析过程

自动机识别字符例子：

手工构造DFA，这样确实可以识别出有可能的token字符

whitechar比较厉害可以检查tab、回车、space.

注意：每一个结束状态意味着可以识别出一个token 比如输入x1=0，就会识别出x1

上图8状态就可以识别数字

d状态识别界符

f、i识别注释

3 状态识别标识符 (至于保留字，可以把保留字先定义在表中，然后用标识符比较，相同就是保留字，不用就是标识符)

所以上图这样一个自动机就可以描述界符、关键字、标识符、常数、运算符 不得不感叹自动机的强大。仅仅这里的一个应用就把我看呆了！！！

然后拿着这个DFA写程序

词法分析器的自动产生

这个词法分析生成器就是给出正则表达式通过词法分析生成器来自动得到DFA。不是像上面那样自动生成。

其实这里用到了前面我们学到的一些算法：

正则式-> NFA->DFA->最小化DFA

LEX编译器：拿着正规式输入得到词法分析程序

Lex源程序就是正则表达式经过贝尔实验室生产的Lex编译器得到词法分析源程序；词法分析源程序再由C编译器，得到可执行的目标代码(01指令)；再把需要编译的源程序输入词法分析机器指令，就得到Token流。

Lex编译器功能就是把正规式——>NFA ——>DFA——>最小化DFA。我们不用管

参看《Lex与YACC》

正规式描述的Lex源程序如何描述：

{;语句} 表示重复0-n多次；语句一；语句二

Lex怎样写？？

Lex语法定义：

只需一个上面语法规范的正则表达式，就能得到词法分析源程序

猜你喜欢

转载自www.cnblogs.com/fennleo/p/13177392.html

形式语言与自动机七词法分析

形式语言与自动机笔记

形式语言和自动机

BUPT 形式语言与自动机

TEST语言——词法分析

词法分析——有限状态自动机（FA）

词法分析有穷自动机

【形式语言和自动机】DFA和NFA

形式语言与自动机总结笔记

【形式语言与自动机】图灵机

【形式语言与自动机】初探——基础核心概念

[源码和文档分享]基于有限自动机的词法分析器构造

第三章 - 有穷自动机与词法分析（一）

编译原理-第三章词法分析-3.6 有限自动机

词法分析之有确定、不确定自动机及其生成器

词法分析（五）：正规式与有限自动机

词法分析（三）：有限自动机DFA与NFA

自然语言处理形式语言与自动机--《自然语言理解》笔记

小C语言–词法分析程序

c语言写的Java词法分析

小C语言--词法分析程序

词法分析器-C语言

C语言--简易词法分析器

A - 小C语言--词法分析程序

使用C语言实现词法分析

关于形式语言与自动机的DFA与NFA一个小小的思考

关于形式语言与自动机的文法一个小小的思考

哈工大2019年春形式语言与自动机期末复习

形式语言与编译10 下推自动机PDA

哈工大2020春形式语言与自动机期末试题

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)