一、GPT-SoVITS
GPT-SoVITS,是一个由RVC变声器创始人“花儿不哭”推出的免费开源项目。
它通过巧妙融合了GPT(Generative Pre-trained Transformer)模型与SoVITS(Speech-to-Video Voice Transformation System)变声器技术,使得用户仅需少量样本数据,即可实现高质量的语音克隆和文本到语音转换(TTS)。
1.软件简介
GPT-SoVITS项目提供提供了零样本和少样本的TTS功能。
零样本TTS允许用户仅凭一个5秒的声音样本,即可实现即时的文本到语音转换。
而少样本TTS则通过1分钟的训练数据,对模型进行微调,以提升声音的相似度和真实感。
我的用AI绘画工具生成图片
而通过模型训练,该工具能够学习并复制特定说话人的声音特征,包括情感、音色和语速,从而生成与原声音极为相似的合成语音。
同时这个工具支持多种语言的语音合成,目前包括英语、日语和中文。
2.配置要求
Windows
- 支持 CUDA 的 nVIDIA 显卡,每张拥有至少 6G 以上显存
- 常见的不能使用的显卡:10系以前的所有卡、1060以下,1660以下,2060以下、3050 4G
- Windows 10/11 系统
MAC
- 搭载Apple芯片(M系列芯片)或AMD GPU的Mac(如2019款Mac Pro)
- macOS 12.3或更高版本
- 已通过运行xcode-select --install安装Xcode command-line tools
我的用AI绘画工具生成图片
3.操作界面
为了降低使用门槛,GPT-SoVITS提供了集成了声音伴奏分离、自动训练集分割、中文ASR(自动语音识别)和文本标注等工具的WebUI。
这些工具可以帮助初学者轻松创建训练数据集和GPT/SoVITS模型,使得声音克隆技术更加亲民。
4.下载与使用
先放上网盘下载分享链接:
提取码: ugc7
我的用AI绘画工具生成图片
下载后,运行VisualStudioSetup.exe进行安装,并选择使用C++的桌面开发组件。