多模态大模型 + 数字人 实现半自动 演示文稿 PPT讲解 搭建赛博老师傅 助力程序员赛博飞升!!!


文档处理 – LLM 的选择

自从大语言模型实际投入生产,所有的底层交互都转变为了,自然语言处理的交互。

https://zhiwen.xfyun.cn/?ch=xhguanwang

https://github.com/slidevjs/slidev


开源实现 – 语音引擎

连贯的语音生成引擎

https://modelscope.cn/studios/AI-ModelScope/ChatTTS-demo

如何复刻自己的声线

之前还有不开源的:
MegaTTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

https://mega-tts.github.io/mega2_demo/

那么我们来看看最新开源的到了什么阶段。

https://funaudiollm.github.io/

CosyVoice

  • https://github.com/FunAudioLLM/CosyVoice

开源实现 – 数字人

百度

对口型
百度

猜你喜欢

转载自blog.csdn.net/wangyaninglm/article/details/141615048