linux中CosyVoice声音克隆安装教程——TTS文本转语音（数字人组件）

企业开发 2025-04-09 17:43:26 阅读次数: 0

CosyVoice 作为一款先进的语音合成解决方案，其设计理念在于提供高效、稳定且灵活的语音生成工具。本教程将从环境配置、依赖安装、模型下载到服务部署全流程进行详细介绍，旨在为用户提供前瞻性的技术指导，同时兼顾细节解析和专业名词解释，便于技术人员快速上手。

文章目录

一、环境准备与依赖安装
二、模型下载与安装
- 2.1 ttsfrd 模块的额外安装步骤
三、服务部署与运行
四、技术细节与专业术语解析

前置安装：CUDA 、Anaconda、git lfs
在这里插入图片描述

一、环境准备与依赖安装

在开始之前，请确保您的系统满足以下基本要求，并具备相应的权限安装软件包。本文以 Git、Conda、pip 以及对应平台的包管理工具为例，详细介绍环境配置和依赖安装步骤。

1.1 Git 仓库克隆与子模块更新

在构建 CosyVoice 项目的基础架构时，我们首先需要从官方仓库克隆最新代码，并同步子模块。执行以下命令：

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive

解析：

子模块 (Submodule)： Git 中的子模块允许一个仓库作为另一个仓库的子目录进行管理，用于引用外部依赖代码库。
此步骤确保代码库和所有依赖模块版本一致，从而避免因版本不匹配导致的编译或运行错误。

1.2 Conda 环境创建与 Python 依赖安装

为保证项目在独立的环境中运行，建议使用 Conda 创建专属环境。执行如下命令：

conda create -n cosyvoice python=3.10
conda activate cosyvoice

接下来安装项目所需的 Python 依赖，其中 pynini 是 WeTextProcessing 模块的必备工具，建议通过 Conda 安装以确保跨平台兼容性（可以复制一个终端，同时下载模型）：

conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

解析：

Conda 环境： 用于隔离不同项目的 Python 环境，避免依赖冲突。
pynini： 一个用于语音处理和文本解析的库，利用有限状态转换器（FST）实现高效文本操作。
清华源： 国内用户常用的 PyPI 镜像，加速包下载。

1.3 平台相关依赖安装

针对不同操作系统，还需要安装音频处理工具 sox 及其开发库，确保音频数据的处理和格式转换正常运行。

Ubuntu 用户：

sudo apt-get install sox libsox-dev

CentOS 用户：

sudo yum install sox sox-devel

解析：

sox： 一款强大的音频工具，用于格式转换、音频剪辑等操作，是语音处理的重要依赖。

二、模型下载与安装

CosyVoice 项目依赖多个预训练模型，通过 Git LFS 管理大文件。确保您已安装 Git LFS，并执行以下命令下载所需模型：

mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

2.1 ttsfrd 模块的额外安装步骤

下载完成后，进入 ttsfrd 模型目录进行后续处理：

cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd_dependency-0.1-py3-none-any.whl
pip install ttsfrd-0.4.2-cp310-cp310-linux_x86_64.whl

解析：

Git LFS： Git Large File Storage，用于管理和存储大体积的二进制文件，如预训练模型。
unzip： 解压工具，用于解压模型资源包。
whl 文件： Python 的轮子包，是一种二进制分发格式，便于安装和部署模块。

三、服务部署与运行

完成上述依赖安装与模型下载后，即可启动 CosyVoice 的 Web 用户界面服务。以下命令将在指定端口启动服务，并将日志输出到 cosyvoice.log 文件中：

nohup python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-SFT > cosyvoice.log 2>&1 &
tail -f cosyvoice.log

解析：

nohup： 允许命令在后台运行，即使当前会话关闭也不会中断。
tail -f： 实时查看日志文件内容，便于监控服务状态和排查故障。
–model_dir 参数： 指定模型目录，确保服务能够加载正确的预训练模型以实现最佳语音生成效果。

四、技术细节与专业术语解析

在本教程中，我们涉及多项技术和工具，以下对部分关键术语进行解释，便于技术背景稍弱的读者理解：

Conda 环境： 一种用于创建、管理不同 Python 版本和依赖的工具，有助于项目间的隔离和依赖管理。
Git 子模块： 用于引用外部代码库的一种机制，确保项目代码与依赖代码保持同步。
pynini： 基于有限状态机技术的文本处理库，常用于自然语言处理中的模式匹配和转换。
sox： 音频处理工具，用于实现音频格式转换、剪辑、效果处理等多种功能。
Git LFS： 用于管理大型文件的 Git 扩展，通常用于存储模型、图像和视频等大文件。
nohup： 一种在 Unix 系统中让进程忽略挂断信号、在后台运行的命令。

猜你喜欢

转载自blog.csdn.net/hyc010110/article/details/147053174

linux中CosyVoice声音克隆安装教程——TTS文本转语音（数字人组件）

CosyVoice 语音合成TTS、声音克隆自定义api服务搭建；requests请求使用

MockingBird快速克隆声音实现文本转语音

【AI】文本转语音变声音色克隆数字人音视频口型同步AI应用

TTS | 文本转语音中的声码器(Vocoder)

声音克隆工具CosyVoice

QT文本转语音模块（TTS）QTextToSpeech

C# TTS-文本转语音

Speechify: 在线文本转语音（TTS）网站

CosyVoice - 阿里最新开源语音克隆、文本转语音项目支持情感控制及粤语本地一键整合包下载

tts(文字转语音)

文字转语音TTS

最新开源文本转语音神器——Spark-TTS本地部署教程：打造超自然AI语音！

Oracle快速克隆安装

（转）7 个开源的TTS（文本转语音）系统推荐

windows下文本转语音TTS库封装

Unity之如何实现TTS文本转语音(真人发音)

[译文]15个开源文本转语音(TTS) 工具

TTS（Text-to-Speech）文本转语音技术导论

ubuntu安装Espeak实现tts文字转语音

RVC-TTS-WebUI: 基于RVC和Edge-TTS的文本转语音Gradio界面

iOS TTS文字转语音

Android 文字转语音(TTS)

android TTS 文字转语音

Delphi:文本朗读器--文本转语音（基于百度TTS语音库)

Voice Builder: 开源文本转语音声音构建工具

Android调用自带TTS文本转语音引擎实现离线语音合成

开源(离线)中文文本转语音TTS(语音合成)工具整理

【C#语音文字互转】.NET的TTS文本转语音合成

【AI语音】edge-tts实现文本转语音，免费且音质不错

今日推荐

deepseek热度已过？

MOOC习题:“GPS数据处理”题目个人解析(C语言)

DeepSeek接入微信公众号小白保姆教程

图+语义：RDF语义处理组件Neosemantics功能列表

大语言模型Prompt工程之使用GPT4生成图数据库Cypher

大语言模型Prompt工程之使用GPT3.5生成图数据库Cypher

GPT-3.5 生成 Fabric Cypher

生成 Cypher 能力：GPT3.5 VS ChatGLM

LangChain 2 ONgDB：大模型+知识图谱实现领域知识问答

生成 Cypher 能力：MOSS VS ChatGLM

Neo4j/ONgDB 图数据库快速处理 Excel 文件

LangChain-Agents 入门指南

周排行

blog公告

Lucene：基本增删改查（Java方式）

1、类库

android环信集成单聊功能

删除数据库表数据SQL语句

rhel6.3安装Percona XtraDB Cluster 5.7时错误的解决方法

天梯赛-堆栈（线段树）

ES6原生Class

20120607

张正友标定算法原理详解

每日归档

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)

2025-04-02(0)