“智能音箱”技术详解

干货!智能硬件“语音交互”是如何实现的?“智能音箱”技术详解

燚智能

百家号 01-25 21:13

喜欢就请关注吧~↗燚智能硬件开发大讲堂用简单的语言,讲复杂的技术!

如今智能语音控制特别火热,智能音箱、汽车、手机……

君子动口不动手,下面讲讲如何实现“动口不动手”?

语音控制的流程

声音采集—>降噪—>语音唤醒—>语音转文字—>语义理解—>回复文字和指令—>文字转声音—>播放声音

举例:

1、用户说“天猫精灵,今天天气怎么样?”

2、“天猫精灵”被语音唤醒模块接收到,并判断为唤醒词,然后开始记录后续的“今天天气怎么样”这段语音,并发送给云端服务器。

3、服务器把这段语音,转化成文字“今天天气怎么样”,交给语义理解服务器

语义理解服务器把“今天天气怎么样”这段文字,拆解成“事件=查询天气,时间=今天”这段控制指令回传给设备。

4、设备根据时间和本机地理位置,找天气服务器查询天气,并获得天气的的文本数据“今天要下雨”

5、设备把“今天要下雨”这几个字发给文字转声音的服务器,服务器返回“今天要下雨”这段声音,由设备喇叭播放出来。

(3,4,5这三个动作,可以拆开由各个服务器单独完成,也可以由一个服务器统一完成。)

(车载系统做的比较简单,主要靠本地识别,落后智能音箱至少5年。)

各模块的功能

降噪(AEC)通过麦克风阵列,判断人在哪个方向,增强那个方向的拾音效果。这样可以在5米之外就能听到人在说话,足够一间房间使用了。

还可以在本机播放音乐的时候,滤除麦克风接收的本机音乐,使得智能音箱在播放音乐的时候也能被唤醒。

这就是大家讲的双麦降噪、7麦阵列之类的。

国际上做的比较好的是科胜讯(Conexant),国内做的比较好的是科大讯飞,国内现在有几十家小公司在做语音降噪算法

(然而这些小公司很快都会挂掉,原因见文章后面)

唤醒智能音箱的麦克风在7x24小时接收外部声音,持续分析这些声音,看看是否能检测到唤醒词(例如前面讲的“天猫精灵”),一旦检测到了唤醒词,就把之后的语音传给语音识别服务器。

国际上唤醒词做的最好的是Sensory,国内的主要是讯飞等语音识别公司。

像智能手表上,一般会有一颗专门的低功耗芯片,内置唤醒词算法,随时打开等着你说话。不需要占用CPU资源,非常省电。

语音转文字(ASR)语音并不能直接拿来分析成意思,必须要转化成文字。这是个成熟的技术了,以前还会有在现在大数据算法的辅助下,结合上下文理解,已经可以非常准确的把声音变成文字了。

语义理解(NLP)自然语言处理,就是把人的语言转化成机器能够理解的数字,分解开,并回复响应的语言。

大家觉得智能音箱是“智障音箱”,主要还是因为这里,现有的技术只能做到固定的问答,而无法像人类一样思考。

再加上人类语言有大量的不同表达方式和歧义语句,理解错误的地方也会非常多。例如“杀死猎人的狗”,杀死的是猎人,还是狗?

只有NLP语义处理能够接近人类的理解了,机器的语音交互,才真的能让用户正常对话。

文字转语音(TTS):这个大家都很熟悉了,不管是机械感强烈的讯飞,还是越来越俏皮的siri,或是高德地图的志玲姐姐声音,都是依靠TTS语音合成,把文字变成声音的。

做这个语音合成的非常多,早些年有放在本机端的,现在一般都是云端来合成。

主流架构

经典架构:降噪用专门的DSP芯片

主控用Android平台,

语音识别、语义识别、语音合成三个放在云端

控制和显示放在本地

现有的国产智能音箱,全都是这个架构的

做的最好的:Amazon Echo全球销量最大的,是Amazon Echo系列,几年时间卖了3000万台,直接导致国内2017年智能音箱公司大量涌现。

Echo和其他智能音箱最大的区别是:所有的控制,都放在云端了。哪怕你家的WIFI台灯和Echo是在同一个局域网,这个灯也是从云端直接控制的。

把控制也放到云端的好处是:智能音箱本身不需要升级任何程序,就可以支持所有的智能硬件。

做的最简单的:Google Android ThingsAndroid Things在2018CES刚发布了新版本,做的比Amazon更省事,把前端语音降噪都放在云端去做了。算法更容易更新,随着时间的发展,能够提供比本地降噪更优秀的降噪效果。

还能够降低硬件要求,从而降低硬件成本。

智能音箱发展趋势

没屏的降成本,越做越简单带屏幕,做复杂交互,作为中枢多个房间,分布式拾音网络云端化,能放在云端的服务都会放上去。做降噪算法,会比较难活下去传统语音识别企业,被互联网打压(写太长了大家不爱看,具体原因后面再讲。喜欢看的求个“赞”,鼓励一下小编继续敲键盘吧~~)

总结

智能音箱,美国卖的很好,国内卖的不怎么样。

虽然不知道谁能一统江湖,但以后一定是大势所趋。

中国卖的不太好的原因,主要是汉语太复杂,稍微调戏一下,智能音箱很容易就变成了智障音响了。

还有一个原因是,很多中国人生性喜欢和人交流,不喜欢和机器交流。明知道是个机器,还“天猫精灵”“叮咚叮咚”“小爱同学”之类的叫个不停,是不是感觉自己好傻??

喜欢就请关注吧~↗燚智能周教授讲讲业内的那些事!

相关精彩内容:

Android Things,新一代物联网操作系统,和Android区别可大了!

谷歌和联想,联合发布超大屏智能音箱,除了听,还能看!

智能硬件,可能会遇到这些危险的场景!工程师需要注意!

猜你喜欢

转载自blog.csdn.net/weixin_42082222/article/details/80529850
今日推荐