阿里又又发布了一个“AI神器”

历史回顾

上一次阿里发布通义千问,犹在昨天,结果,阿里又发布了一件AI神器,该神器实用性极强,据说背后依然采用阿里的通义千问大模型。

不了解的可以看下我的历史文章 阿里的通义千问,震惊到我了

最近一直在整理AIGC方面的东西分享给大家,当然编程也不会落下,欢迎关注,让我们在AI的道路上越走越远

他来了,讯飞星火迈着矫健的步伐向我们走来了

免费搭建个人stable-diffusion绘画(非本地、干货教程)

阿里给“打工”朋友送上“节日礼物”

image.png

六一儿童节当天,阿里就给所有“打工”的大朋友送上了一份“节日礼物”

6月1日上午,阿里云发布了面向音视频内容的AI新品“通义听悟”,并正式公测

【通义听悟】 推荐给你~ tingwu.aliyun.com/u/14xZ00303… 工作学习AI助手,依托大模型,为每一个人提供全新的音视频体验。点击链接立即注册,公测期免费体验。

通义千问、通义听悟 这哥俩现在所处环境不同,定位不同,功能不同 但依赖大模型是相同的

这是阿里通义大模型最新的应用进展,也是国内首个开放公测的大模型应用产品。

根据阿里云智能CTO周靖人介绍,“通义听悟”是依托通义千问大模型和音视频AI模型的AI助手,可进行实时语音识别,实现对话的实时记录、多语言翻译、发言总结、提取PPT、内容规整等。

对我们打工人有什么用

会议神器

image.png

当领导在上面夸夸其谈的时候,你的会议纪要可谓是错乱无章,这会儿通义听悟就上线了,你只需要录音

image.png

或者我们本地上传

image.png

支持区分多人对话,然后开始转写

值得一提的是, “听悟”可以根据AI转写,提取这场说话内容的关键词,给出全文摘要。

image.png

视频总结神器

image.png

不同于传统的实时会议速记转写,如今面向C端提供视频转写服务的应用尚在少数。而如今的通义听悟,则从纯粹的音频转写,延伸到了音视频领域,融合了十多项AI新功能。

“通义听悟”我个人认为最大的实用功能是:可以设置插件,无论看视频、看直播,还是开会,点开听悟插件,就能实现音视频的实时转录和翻译。

image.png

其实看到这里,可以感受到,这不只是说对打工人的福利,也是对于学生党的福利,比如我们上课,课后复盘总结

image.png

最后再提一点阿里的生态,他们将数据存储和阿里云盘打通 这点是值得表扬的,在阿里云盘中,用户可以一键转写云盘中的文件,在云盘内在线播放视频时,能够实时生成字幕。

还能帮我们什么

通义听悟未来还有更多基于大模型的功能上线。比如,对视频中出现的PPT,AI能够基于通义千问大模型做到一键提取,而用户也能向AI助手针对多个音视频内容进行提问、让听悟概括特定段落等等。

值得注意的是,听悟目前针对一些细分场景中提供了不同的部署形态,如浏览器插件。在Chrome安装听悟插件后,听悟在无字幕视频中就可以实时生成双语悬浮字幕。二转写结果可下载为字幕文件,方便新媒体从业者视频后期制作

image.png

通义千问Chrome插件示意图,近期该功能将上线,可以持续关注 我后续给大家做详细介绍,不过我们可以先感受下

image.png

钉钉的在线会议模块“钉闪记”,同样集成了听悟。在会议结束后,钉闪记所能够输出的也不再是纯粹的速记,而是包含重点摘要的完整文档,可以有效地提升公司内部工作效率。甚至,在开会时,AI可以代为记录会议、整理要点。

未来一段时间还将在夸克APP、阿里云盘等端口提供服务

总结

这一番体验下来总体的效果还是可以的

image.png

从通义听悟中可以看出,国内大模型厂商除了在底层大模型搭建上快马加鞭外,AI应用也已经成为他们必须抓住的机遇——AI音视频转写、内容理解等功能,背后意味着通用能力,厂商们可以覆盖包括开会、上课、培训、面试、直播、看视频、听播客等音视频场景,嵌入到不同的应用软件当中。

今天的分享就到这里,我们的AI绘画系列正在慢慢搭建,对AI有兴趣的可以关注公众号(微信公众号搜索 1点东西) ,我们会持续输出AIGC类好玩的工具和想法,立志让每个人都能感受AI,利用AI找寻更多可能性

猜你喜欢

转载自juejin.im/post/7239962972508209212