EasyDL 语音是干嘛的?
解释一下:就是用零代码自助训练语音识别语言模型,声音分类模型。提升业务领域专有名词识别准确率,区分不同声音类别,广泛适用于行业数据采集录入、语音指令、呼叫中心、声音类型检测等应用场景。 说白了就是基于语音识别上的牛杯功能。
一般训练的流程有下面四个。语音识别可以使用业务场景文本的语料,在不用使用者敲代码的情况下自动训练语音识别的模型,提高业务领域识别准确率。一般比较常见的场景是在语音对话,语音的指令(小度小度),语音录入(微信语音),客服电话(超级烦人的机器人就是不给你转人工0 0)等等
- 1.创建模型,选择训练的语音识别接口
- 2.上传测试音频和标注文本评估基础模型
- 3.上传业务词汇或长文本自动训练模型
- 4.上线模型,语音识别接口配置参数使用
说白了就是你不用写代码,准备好声音素材然后上传。 再传对应这些声音的文本或者词汇去给他做训练,当然你得把控训练结果及时调整。然后就是完成训练,整个模型就可以投入使用。 就是他再听到或者识别到类似的发音就可以反应出来文字内容是啥。 还挺有意思的。
我亲测过让机器识别 哈比 憨批 憨憨 哈子 艾斯比。。。结果机器都能识别出来是啥。简直优秀。
另外除了语音识别的一个类就是声音分类。
核心内容就是去定制识别当前音频是什么类型的声音。 应用于生产或泛安防场景中监控异常声音。应用在安防监控和科学研究比较多。
流程和上面的语音识别也差不多,共四个:
-
数据处理
提供闭环的数据管理功能,从数据上传、标注到训练
-
模型训练
提供丰富的训练方式,零代码轻松获得高精度模型
-
模型校验
提供详细的模型评估报告,支持在线校验,助力针对性优化模型
-
模型部署
将模型转换为适合业务场景的推理形式,从云到端全覆盖
一般以上的语音识别功能就这些,然后稍微讲讲百度的EasyDL语音识别。和其他云厂商的有一些不同和优势,主要体现在:
零门槛操作
最快10min训练优化
一站式自动化训练
上传文件极简交互
高精准评估
可视化训练报告
系统自动评估推荐基础模型
训练前后均提供评估报告
强训练效果
5%-25%识别率提升
预置百度大规模预训练模型
支持长短文本多种训练方式
支持多次上传迭代训练
超灵活部署
多种云端调用方式
模型上线后专属使用
支持在线API,SDK多种方式