数字人的部分实现(文生图、文图生视频、文生语音)

#挖个坑 

一、文生图:

1、基于SD的开源免费:

A启动器

fooocus

omost

2、基于Midjourney的收费

3、各大平台的文生图:ChatGPT的DALL、文心一言、智谱清影、快手的可灵等

二、文(图)生视频:

国外的:Sora(暂未推出)、Runway、Pika等

国内的:可灵、智谱清影等层出不穷

三、文生语音

Chattts:GitHub - 2noise/ChatTTS: A generative speech model for daily dialogue.

GPTsovits:(可克隆)

https://fish.audio/zh-CN/train/new-model/

……

这几个方向这些模型都尝试过,也费尽心思本地部署过,有些很惊艳,实现的程度很好。但是目前这些技术还处于急速迭代之中,所以先不蹭热度等一等,过半年之后再看看进化更新的程度,到时候再对比选择最值得使用的模型来写文章吧。感觉现在踩的这些坑可能之后都会被迭代掉,又或者技术过于成熟被封的话,那也有本地部署经验实现的后路。啊哒哒哒哒大!挖坑!

猜你喜欢

转载自blog.csdn.net/weixin_46451009/article/details/141360431