文章大纲
文档处理 – LLM 的选择
自从大语言模型实际投入生产,所有的底层交互都转变为了,自然语言处理的交互。
https://zhiwen.xfyun.cn/?ch=xhguanwang
https://github.com/slidevjs/slidev
开源实现 – 语音引擎
连贯的语音生成引擎
https://modelscope.cn/studios/AI-ModelScope/ChatTTS-demo
如何复刻自己的声线
之前还有不开源的:
MegaTTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts
https://mega-tts.github.io/mega2_demo/
那么我们来看看最新开源的到了什么阶段。
https://funaudiollm.github.io/
CosyVoice
- https://github.com/FunAudioLLM/CosyVoice
开源实现 – 数字人
百度
对口型
百度