语音识别之发音字典 - 代码天地

语音识别之发音字典

其他 2018-08-06 10:26:33 阅读次数: 0

1. 概念

　　发音字典(lexicon)包含了从单词(words)到音素(phones)之间的映射，作用是用来连接声学模型和语言模型的。

　　发音字典在语音识别过程中的位置如图所示：
这里写图片描述

　　发音字典包含系统所能处理的单词的集合，并标明了其发音。通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系，从而把声学模型和语言模型连接起来，组成一个搜索的状态空间用于解码器进行解码工作。
　　

２. 字典生成

　　以下过程仅适用于中文语音识别的发音字典。

2.1 拼音-音素的映射

　　首先需要确定的是拼音到音素的转换规则/映射关系。　
　　可以有不同的映射关系，如汉字一的拼音 “yi1”可以对应 “ii i1”，也可以对应 “y i1”（前者是清华语音识别使用的规则）。
　　不同的映射关系会产生不同的识别效果。

2.2 中文词-拼音的映射

　　需要列出尽可能多的中文词及其对应的拼音，有多音字的可列出其不同组合。

2.3 g2p工具实现

　　通过以上两个步骤即可实现中文词-音素的转换，也就是G2P（Grapheme-to-Phoneme Conversion）。
　　通过脚本可实现输入中文词，输出对应音素的功能。

2.4 收集中文词

　　发音字典需要覆盖尽可能多的词－音素。
　　可以通过之前的文章构建语言模型（二）：模型训练与评估中的方式，将分词后的文本语料统计各单词及其词频，去掉低频词与过长的词，得到中文词表。

2.5 生成词典

　　将中文词表作为输入，通过g2p工具即可得到词-音素的映射，也就是发音词典。

3. 参考文章

What is G2P? http://www.voxforge.org/home/docs/faq/faq/what-is-g2p
语音识别技术简介http://blog.csdn.net/rfc2008/article/details/9151755?utm_source=tuicool&utm_medium=referral

猜你喜欢

转载自blog.csdn.net/lujian1989/article/details/53931434

语音识别之发音字典

语音识别-字典

Unity之如何实现TTS文本转语音(真人发音)

语音库（发音人）

autojs之语音识别

kaldi 发音字典生成

针对中英文code-switch语音识别的英文单词发音生成工具

英语音标发音（二）

语音识别语言模型和拼音字典文件制作

语音识别数据列表和字典处理脚本

android语音识别之科大讯飞语音API的使用

讯飞语音之语音转文字识别功能

android 语音识别之讯飞语音移植

讯飞语音识别之语音转文字------java

语音识别之语音激活(VAD)检测(一)

Azure AI 服务之语音识别

python之语音识别（speech模块）

语音识别之回声消除及调试经验

语音识别之HTK重理解

语音识别之VAD——静默检测

Android-谷歌语音识别之离线识别（二）

百度语音识别之拼音识别

语音识别

语音识别与语音合成

语音识别语音合成

英语发音之连读技巧 ---

语音服务技术支持之——命令词识别

语音识别工具箱之HTK安装与使用

语音识别工具箱之kaldi介绍

语音识别之HMMS安装和MFCC安装

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)