语音开源代码简介

1.Kaldi

Kaldi诞生于2009年的JohnsHopkins University，刚开始项目重点是子空间高斯模型（SGMM）建模和词汇学习抽样调查，代码也是基于HTK进行的开发，现在也是C++作为主要语言。但是随着更多参与者的加入，特别是对深度神经网络（DNN）的支持，让Kaldi的发展超过了其他几个著名开源项目。更重要的是Kaldi的维护和更新非常及时，基本上每天都有新的进展报告，而且在跟进学术研究的新算法方面也更加快速。国外很多公司和研究机构也都在用Kaldi平台，当然国内更多的公司，其实也是基于这个平台做的改进，特别是最近几年新兴的公司和企业研究院。

2.CMU-Sphinx

CMU-Sphinx是卡内基-梅隆大学（CarnegieMellon University，CMU）开发的一款开源的语音识别系统，后来Sun、三菱、惠普、加州大学圣克鲁斯分校和麻省理工也对其有所贡献。Sphinx包括一系列的语音识别器和声学模型训练工具，使用了固定的HMM模型（中科院声学所也曾经引领了HMM国内潮流），被称为第一个高性能的连续语音识别系统。Sphinx的发展也很快，现在Sphinx-4已经完全用Java语言改写，很适合嵌入到Android平台。另外，笔者这里还要强调下李开复先生对Sphinx的贡献，虽然争论很多。

3.Julius

Julius是日本京都大学和日本IPA(Information-tech-nologyPromotion Agency)联合开发的一个实用高效双通道的大词汇连续语音识别引擎。Julius通过结合语言模型和声学模型，可以很方便地建立一个语音识别系统。Julius支持的语言模型包括：N-gram模型，以规则为基础的语法和针对孤立词识别的简单单词列表。Julius支持的声学模型必须是以分词为单位，且由HMM定义的。Julius由纯C语言开发，遵循GPL开源协议，Julius最新的版本采用模块化的设计思想，使得各功能模块可以通过参数配置。

4.HTK

HTK是Hidden Markov ModelToolkit（隐马尔科夫模型工具包）的简称，HTK主最初是由剑桥大学工程学院（Cambridge University Engineering Department ，CUED）的机器智能实验室于1989年开发的，它被用来构建CUED的大词汇量的语音识别系统。HTK主要包括语音特征提取和分析工具、模型训练工具、语音识别工具。HTK实际上于1999年被微软收购，但是这样反而阻碍了HTK的发展，因此后来微软又授权开源。HTK的版本更新相当缓慢，2015年总算发布了其3.5 Beta版本。

5.RWTH ASR

RWTH ASR是一个包含语音识别解码器与工具的声学模型开发软件包，2001年由 RWTH Aachen 大学的Human Language Technology and Pattern Recognition Group 开发。RWTH ASR也是由C++开发，主要包括说话人自适应组件、说话人自适应训练组件、非监督训练组件、个性化训练和单词词根处理组件等。

上述5种语音识别开源代码是基础的开源版本，基于这些版本诞生了不少衍生的版本，比如Platypus，FreeSpeech，Vedics，NatI，Simon，Xvoice，Zanzibar，OpenIVR，Dragon Naturally Speaking等等，其中，Dragon Naturally Speaking比较有意思，被Nuance收购后也作为了其产品名称。

转自：
1 https://www.jianshu.com/p/532745af477d