节选自《对话|俞栋:在人工智能的很多应用场景,语音识别是一个入口》

原文链接:http://www.sohu.com/a/117882304_133098

记者:从您和邓力老师的《Automatic Speech Recognition: A Deep Learning Approach》出版到现在,您认为期间深度学习有了什么新的研究成果? 哪些研究成果您认为是很重大的?

俞栋:我们写这本书的时候,LSTM这样的模型才刚刚开始成功应用于语音识别。当时大家对其中的很多技巧还没有很好的了解。所以训练出来的模型效果还不是那么好。最近,我的同事 Jasha Droppo博士花了很多时间在 LSTM模型上面,提出了一种很有意思的基于smoothing的 regularization 方法,使得 LSTM 模型的性能有了很大的提升。他的 smoothing 方法的基本思想在我们的 human parity 文章中有介绍(论文链接:)。

另外一个比较大的进展是 Deep CNN。最近两年里,很多研究组都发现或证实使用小Kernel的 Deep CNN比我们之前在书里面提到的使用大kernel的CNN方法效果更好。Deep CNN跟LSTM 比有一个好处:用 LSTM 的话,一般你需要用双向的 LSTM 效果才比较好,但是双向 LSTM会引入很长的时延,因为必须要在整个句子说完之后,识别才能开始。 Deep CNN的时延相对短很多,所以在实时系统里面我们会更倾向于用 Deep CNN 而不是双向 LSTM

记者:您曾说过,人工智能的成功在于将多种方法的整合到一个系统。在你们最近发表的论文中,我们看到目前最新的语音识别的研究用到了多任务优化(Multitask Joint learning)以及多种模型混合(ensembles of models)的方法,能谈谈各自的优势吗?

俞栋:相对来说,语音识别是一个任务比较单一而非通用的人工智能系统语音识别的问题定义得也比较清晰。在这样的系统里面,把深度学习模型与其他模型进行整合的重要性相对来说比较小。这也就是为什么只要你有足够的数据和运算能力,即便是完全的 deep learning end-to-end system 表现也不错。不过目前来讲,深度学习和 HMM 相结合的混合模型在大多数场景下仍然表现最佳

猜你喜欢

转载自blog.csdn.net/zh515858237/article/details/81334677
今日推荐