语音识别技术概览 - 代码天地

语音识别技术概览

其他 2020-08-10 10:22:36 阅读次数: 0

1.1概述

1.1.1总结

语音识别基本和图片识别类似，都是从传统的模型到深度神经网络DNN，再到RNN、深度卷积网络CNN。

在端到端方面也是从隐马尔科夫HMM到CTC、LFMMI，再到attention方面…

下面是一些模型列表：
1.混合高斯-隐马尔科夫模型 GMM-HMM
2.深度神经网络-隐马尔科夫模型 DNN-HMM
3.深度循环神经网络-隐马尔科夫模型 RNN-HMM
4.深度卷积神经网络-隐马尔科夫模型 CNN-HMM
5.n-GRAM模型
6.CTC
7.LFMMI(lattice free maximum mutual information)无词图最大互信息
8.连接时序分类-长短时记忆模型 CTC-LSTM
9.注意力模型 Attention

1.2GMM-HMM

混合高斯-隐马尔科夫模型 GMM-HMM。神经网络出现前的模型，20世纪80年初。

1.3GRU-CTC、BLSTM-RNN

利用循环神经网络可以利用语音上下文相关的信息，得到更加准确地信息，而GUR又能选择性的保留需要的长时信息，使用双向rnn又能够充分的利用上下文信号。
但该方法缺点是一句话说完之后才能进行识别，且训练相对cnn较慢

1.4FSMN

科大讯飞结合DNN和RNN特点，研发了前馈型序列记忆神经网络（feed-forward sequential memory network,FSMN）解决了双向GRU的参数过多和实时性较差的缺点，它利用一个记忆模块，包含了上下几帧信息，能够得到不输于双向GRU-CTC的识别结果。

1.5DFCNN

2016年，科大讯飞提出了一种使用深度卷积神经网络来对时频图进行识别的方法，就是全序列卷积神经网络DFCNN(DEEP fully convolutional neural network)。

DFCNN先对时域的语音信号进行傅里叶变换得到语音的语谱图，DFCNN直接将一句语音转化成一张图像作为输入。

猜你喜欢

转载自blog.csdn.net/zephyr_wang/article/details/105689381

语音识别技术概览

人脸识别技术及应用概览

语音识别技术

语音识别的技术

语音情感识别技术

语音识别技术自学笔记

语音识别的技术原理

语音识别技术的前世今生

【IOT】语音识别技术原理

语音识别技术学习：CMU Sphinx

【草记】认识语音识别技术

语音识别的技术原理是什么？

语音识别中的数据增强技术

语音识别ASR技术通识

【机器听觉】初探语音识别技术

【人工智能】语音识别技术

基于DNN-HMM的语音识别技术

带你认识传统语音识别技术

汽车穿梭餐厅的语音识别技术及数据

Kaldi语音识别技术(八) ----- 整合HCLG

Kaldi语音识别技术(七) ----- 训练GMM

语音识别-语音技术-自然语言处理

【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer

基于语言模型的语音识别与语音合成技术

实时语音通讯技术：多人通话和语音识别

漫游语音识别技术——带你走进语音识别技术的世界

语音识别学习笔记（三）【动态时间归正的识别技术】

语音识别初探——一文读懂语音识别技术原理

语音识别技术突飞猛进，语音识别公司都有哪些？

【飞桨PaddleSpeech语音技术课程】— 语音识别-定制化识别

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)