自然语言处理综论-第2章小结-正则表达式与自动机

正则表达式与自动机


本章介绍了自然语言处理的最重要的基本概念:自动机,还介绍了一种基于自动机的实用工具,即正则表达式。

  • 正则表达式是模式匹配的有力工具
  • 正则表达式的基本运算包括符号的毗边、符号的析取([],|以及.)、计数符(*,+以及{n,m}),锚号(^和$)和前于关系运算((和))。
  • 任何正则表达式都可以实现为一个有限状态自动机。
  • 存储器(\1以及())是一个高级运算,它经常作为正则表达式的一部分,但不能实现为有限自动机。
  • 自动机把形式语言定义为隐含地被自动机所接收的符号串的集合。
  • 自动机可以使用任何符号集合作为它的词汇,包括字母、单词甚至图形。
  • 确定的自动机(DFSA)的行为完全由它的状态来决定。
  • 非确定的自动机(NFSA)对于相同的当前状态和下一状态,有时必须在多条路径之间进行选择。
  • 任何一个NFSA都可以转换为一个DFSA。
  • NFSA在进程表中探索下一个状态的顺序决定了它的搜索策略。深度优先和后进先出策略相当于把进程表看成栈;宽度优先和先进先出策略相当于把进程表自成队列。
  • 任何正则表达式都可以被自动编译为NFSA,因此也就可以被编译为FSA。

猜你喜欢

转载自blog.csdn.net/qq_17065591/article/details/108113474