Kaldi aishell2 GMM训练步骤

其他 2018-11-22 05:37:40 阅读次数: 0

版权声明： https://blog.csdn.net/cj1989111/article/details/82669666

中文语音识别的aishell2推出已经有一段时间了，由于没有aishell2的语料库，有资格的可以申请，所以拿aishell1的15G语料进行训练，所以写了相关的脚本处理aishell1的语料库，来适配aishell2，可以参考我的github 仓库aishell2-gmm-train ，branch为：gmm-train。

语料准备

下载完aishell1的语料后，将data_aishell.tgz解压后的语料放在egs/aishell2目录下的recipes（自己创建的），将解压后的语料按照github上的路径存放，然后先执行trans_create.sh脚本，此脚本根据aishell_transcript_v0.8.txt生成dev test train目录所需的trans.txt（wav名与所讲内容的对应关系，注意二者中间是tab制表符，空格会导致训练时spk2utt等文件内容为空），再执行wav_create.sh脚本，生产（wav名与 wav路径的对应关系）

训练脚本的修改

1. 注释了大辞典发音字典相关代码，指定了aishell1解压resource_aishell.tgz后的字典，见修改内容：https://github.com/xiangxyq/aishell2-gmm-train/blob/gmm-train/s5/local/prepare_dict.sh

2. 语言模型训练时，注释了kaldi_lm的训练及srilm的训练方式，自己利用ngram命令生成相关的语言模型，https://github.com/xiangxyq/aishell2-gmm-train/blob/gmm-train/s5/local/train_lms.sh

3. GMM训练时，在MFCC特征提取时，没有采用aishell2 pitch的特征提取方式，因为pitch增加了相应的维度，导致kaldi自带的online-gmm-decode-faster解码器维度不匹配，修改成make_mfcc.sh脚本，注释掉了 subset the training data for fast startup相关代码，并修改了部分训练时的错误，https://github.com/xiangxyq/aishell2-gmm-train/blob/gmm-train/s5/local/run_gmm.sh

注：以上脚本中，注释掉了三音素和DNN的相关训练，如有问题，欢迎拍砖。

猜你喜欢

转载自blog.csdn.net/cj1989111/article/details/82669666

Kaldi aishell2 GMM训练步骤

kaldi入门详解 aishell步骤解释

Kaldi语音识别技术(七) ----- 训练GMM

kaldi学习笔记-三音素训练2

kaldi基于GMM的单音素模型训练部分

kaldi HMM-GMM全部训练脚本分解

kaldi DNN在线解码 aishell为例

Kaldi声学模型训练

kaldi 中查看gmm模型参数

Kaldi

kaldi 模型训练工具整理

kaldi训练报错：out of memory

kaldi ：详解aishell-1全过程【**数据准备**】

Kaldi中thchs30训练自己数据集的步骤

kaldi GMM模型解码指令 gmm-latgen-faster详解

kaldi训练：生成词典时报错：sym2int.pl: undefined symbol (in position 1)

kaldi 学习笔记-单音素训练

Kaldi各种已经训练好的模型

kaldi中使用PyTorch训练模型

Kaldi语音识别技术(六) ----- DTW和HMM-GMM

Kaldi中的L2正则化

KALDI之aishell之V1模型续4（最终的结果）

kaldi入门：搭建第一个中文ASR (AISHELL-1)

【含泪总结！】kaldi声纹识别模型跑通aishell中的v1遇到的坑

Ubuntu上Kaldi跑librispeech数据集步骤

kaldi 学习笔记-三音素训练1(Decision Tree)

kaldi 训练出错Failed to allocate a memory region of *** bytes

如何使用kaldi训练得到录制音频的mfcc数据

kaldi中使用迁移学习进行模型训练

Kaldi 对说话人识别GMM-UBM的MAP 参数更新和对数似然概率解读

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)