语音识别之发音字典

1. 概念

  发音字典(lexicon)包含了从单词(words)到音素(phones)之间的映射,作用是用来连接声学模型和语言模型的。

  发音字典在语音识别过程中的位置如图所示:
这里写图片描述

  发音字典包含系统所能处理的单词的集合,并标明了其发音。通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作。
  

2. 字典生成

  以下过程仅适用于中文语音识别的发音字典。

2.1 拼音-音素的映射

  首先需要确定的是拼音到音素的转换规则/映射关系。 
  可以有不同的映射关系,如汉字一的拼音 “yi1”可以对应 “ii i1”,也可以对应 “y i1”(前者是清华语音识别使用的规则)。
  不同的映射关系会产生不同的识别效果。

2.2 中文词-拼音的映射

  需要列出尽可能多的中文词及其对应的拼音,有多音字的可列出其不同组合。

2.3 g2p工具实现

  通过以上两个步骤即可实现中文词-音素的转换,也就是G2P(Grapheme-to-Phoneme Conversion)。
  通过脚本可实现输入中文词,输出对应音素的功能。

2.4 收集中文词

  发音字典需要覆盖尽可能多的词-音素。
  可以通过之前的文章构建语言模型(二):模型训练与评估 中的方式,将分词后的文本语料统计各单词及其词频,去掉低频词与过长的词,得到中文词表。

2.5 生成词典

  将中文词表作为输入,通过g2p工具即可得到词-音素的映射,也就是发音词典。

3. 参考文章

  1. What is G2P? http://www.voxforge.org/home/docs/faq/faq/what-is-g2p
  2. 语音识别技术简介http://blog.csdn.net/rfc2008/article/details/9151755?utm_source=tuicool&utm_medium=referral

猜你喜欢

转载自blog.csdn.net/lujian1989/article/details/53931434