语音开源代码简介

1.Kaldi

        Kaldi诞生于2009年的JohnsHopkins University,刚开始项目重点是子空间高斯模型(SGMM)建模和词汇学习抽样调查,代码也是基于HTK进行的开发,现在也是C++作为主要语言。但是随着更多参与者的加入,特别是对深度神经网络(DNN)的支持,让Kaldi的发展超过了其他几个著名开源项目。更重要的是Kaldi的维护和更新非常及时,基本上每天都有新的进展报告,而且在跟进学术研究的新算法方面也更加快速。国外很多公司和研究机构也都在用Kaldi平台,当然国内更多的公司,其实也是基于这个平台做的改进,特别是最近几年新兴的公司和企业研究院。

2.CMU-Sphinx

       CMU-Sphinx是卡内基-梅隆大学(CarnegieMellon University,CMU)开发的一款开源的语音识别系统,后来Sun、三菱、惠普、加州大学圣克鲁斯分校和麻省理工也对其有所贡献。Sphinx包括一系列的语音识别器和声学模型训练工具,使用了固定的HMM模型(中科院声学所也曾经引领了HMM国内潮流),被称为第一个高性能的连续语音识别系统。Sphinx的发展也很快,现在Sphinx-4已经完全用Java语言改写,很适合嵌入到Android平台。另外,笔者这里还要强调下李开复先生对Sphinx的贡献,虽然争论很多。

3.Julius

      Julius是日本京都大学和日本IPA(Information-tech-nologyPromotion Agency)联合开发的一个实用高效双通道的大词汇连续语音识别引擎。Julius通过结合语言模型和声学模型,可以很方便地建立一个语音识别系统。Julius支持的语言模型包括:N-gram模型,以规则为基础的语法和针对孤立词识别的简单单词列表。Julius支持的声学模型必须是以分词为单位,且由HMM定义的。Julius由纯C语言开发,遵循GPL开源协议,Julius最新的版本采用模块化的设计思想,使得各功能模块可以通过参数配置。

4.HTK

      HTK是Hidden Markov ModelToolkit(隐马尔科夫模型工具包)的简称,HTK主最初是由剑桥大学工程学院(Cambridge University Engineering Department ,CUED)的机器智能实验室于1989年开发的,它被用来构建CUED的大词汇量的语音识别系统。HTK主要包括语音特征提取和分析工具、模型训练工具、语音识别工具。HTK实际上于1999年被微软收购,但是这样反而阻碍了HTK的发展,因此后来微软又授权开源。HTK的版本更新相当缓慢,2015年总算发布了其3.5 Beta版本。

5.RWTH ASR

       RWTH ASR是一个包含语音识别解码器与工具的声学模型开发软件包,2001年由 RWTH Aachen 大学的Human Language Technology and Pattern Recognition Group 开发。RWTH ASR也是由C++开发,主要包括说话人自适应组件、说话人自适应训练组件、非监督训练组件、个性化训练和单词词根处理组件等。

       上述5种语音识别开源代码是基础的开源版本,基于这些版本诞生了不少衍生的版本,比如Platypus,FreeSpeech,Vedics,NatI,Simon,Xvoice,Zanzibar,OpenIVR,Dragon Naturally Speaking等等,其中,Dragon Naturally Speaking比较有意思,被Nuance收购后也作为了其产品名称。


转自:
1 https://www.jianshu.com/p/532745af477d 

猜你喜欢

转载自www.cnblogs.com/dylancao/p/8995255.html