生成音乐使用MusicGen在AMD GPU上

企业开发 2024-11-02 00:26:12 阅读次数: 0

Music Generation With MusicGen on an AMD GPU — ROCm Blogs

2024年3月8日作者：Phillip Dang。

MusicGen是一种基于变换器的自回归模型，它根据前面片段预测一段音乐的下一个片段。这种方法类似于语言模型预测下一个词元。

MusicGen能够使用以下输入生成音乐：

无输入源（例如，无条件生成）
文本描述（例如，基于文本的条件生成）
输入音乐序列（例如，基于旋律的条件生成）

想要深入了解MusicGen的内部工作机制，请参考简单且可控的音乐生成。

在这篇博客中，我们演示了如何使用AMD GPU和ROCm无缝地运行MusicGen的推理。我们使用此模型来自Hugging Face，并展示了上述三种输入方式。

前提条件

要在本地运行 MusicGen，您至少需要一块 GPU。按照本博客进行操作时，您需要以下软件：

ROCm
PyTorch
Linux OS

要检查您的硬件并确保系统识别您的 GPU，运行以下命令：

rocm-smi --showproductname

您的输出应该如下所示：

================= ROCm System Management Interface ================
========================= Product Info ============================
GPU[0] : Card series: Instinct MI210
GPU[0] : Card model: 0x0c34
GPU[0] : Card vendor: Advanced Micro Devices, Inc. [AMD/ATI]
GPU[0] : Card SKU: D67301
===================================================================
===================== End of ROCm SMI Log =========================

要确保 PyTorch 识别您的 GPU，运行以下 Python 代码：

import torch
print(f"number of GPUs: {torch.cuda.device_count()}")
print([torch.cuda.get_device_name(i) for i in range(torch.cuda.device_count())])

您的输出应该类似如下：

number of GPUs: 1
['AMD Radeon Graphics']

一旦确认系统识别您的设备，您就可以安装所需的库并生成一些音乐。

在本博客中，我们使用 facebook/musicgen-small 变体。

库

您可以使用 Hugging Face 的 transformer 库来运行 MusicGen。要安装所需的库，请运行以下命令：

! pip install -q transformers

使用 Hugging Face 的 MusicGen

从版本 4.31.0 开始，MusicGen 可以在 Hugging Face 的 Transformers 库中使用。让我们来看看如何使用它。在本节中，我们将按照 Hugging Face 的示例进行操作。我们将在介绍中解释的 3 种不同模式下生成音乐。

无条件生成

让我们从无需任何输入生成音乐开始。

from transformers import MusicgenForConditionalGeneration

# 初始化模型和模型输入
model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
unconditional_inputs = model.get_unconditional_inputs(num_samples=1)

# 生成音频
audio_values = model.generate(**unconditional_inputs, do_sample=True, max_new_tokens=256)

你可以直接在笔记本中播放音频，也可以使用*scipy*将音频保存为WAV文件。

要在笔记本中播放音频，运行：

from IPython.display import Audio

sampling_rate = model.config.audio_encoder.sampling_rate

# 播放音频样本
Audio(audio_values[0].cpu(), rate=sampling_rate)

要保存音频，运行：

import scipy

sampling_rate = model.config.audio_encoder.sampling_rate
scipy.io.wavfile.write("audio/unconditional.wav", rate=sampling_rate, data=audio_values[0, 0].cpu().numpy())

文本条件生成

接下来，我们来生成与文本输入相对应的音乐。这个过程分为三个步骤：

文本描述会传递到文本编码模型中，以获取隐藏状态表示序列。
MusicGen 会训练来预测音频令牌或音频代码，这些代码是基于这些隐藏状态的。
使用音频压缩模型（如 EnCodec）对音频令牌进行解码，以恢复音频波形。

要看到这一过程，请运行以下代码：

from transformers import AutoProcessor, MusicgenForConditionalGeneration

# 初始化模型
processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

# 设置设备为 GPU
device = 'cuda'
model = model.to(device)

# 模型的文本描述
input_text = ["epic movie theme", "sad jazz"]

# 创建输入
inputs = processor(
    text=input_text,
    padding=True,
    return_tensors="pt",
).to(device)

# 生成音频
audio_values_from_text = model.generate(**inputs, max_new_tokens=512)

print(audio_values_from_text.shape)

输出：
torch.Size([2, 1, 325760])

请注意，音频输出是一个三维的 Torch 张量，其形状为 batch_size、`num_channels` 和 sequence_length。如同无条件生成一样，你可以通过 Audio 库来收听生成的音频：

from IPython.display import Audio

sampling_rate = model.config.audio_encoder.sampling_rate

# 收听第一段根据输入文本"epic music theme"生成的音频
Audio(audio_values_from_text[0].cpu(), rate=sampling_rate)

# 收听第二段根据输入文本"sad jazz"生成的音频
Audio(audio_values_from_text[1].cpu(), rate=sampling_rate)

我们已经将这两段 WAV 文件分别保存为 audio/conditional1.wav 和 audio/conditional2.wav，存储在 this GitHub folder 中，所以你无需运行代码即可收听。

音频提示生成

你也可以通过提供一个旋律和文本描述来生成音乐，从而指导生成过程。我们使用之前从文本描述 “sad jazz” 生成的样本的前半部分作为我们的音频提示：

# 提取生成音频的前半部分
sample = audio_values_from_text[1][0].cpu().numpy()
sample = sample[: len(sample) // 2]

# 作为输入使用
inputs = processor(
    audio=sample,
    sampling_rate=sampling_rate,
    text=["sad jazz"],
    padding=True,
    return_tensors="pt",
).to(device)
audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)

你可以使用以下代码来收听生成的音频：

Audio(audio_values[0].cpu(), rate=sampling_rate)

我们将这个文件保存在这个 GitHub 文件夹中的`audio/audio_prompted.wav`。

尽管在这篇博客中我们只使用了小模型，但我们鼓励你探索中型和大型模型。我们还鼓励你使用自己的自定义音频数据集对模型进行微调。

猜你喜欢

转载自blog.csdn.net/eidolon_foot/article/details/143312798

生成音乐使用MusicGen在AMD GPU上

MUSICGEN：简单可控的音乐生成

gcp上使用gpu来学习tensorflow

在Docker Compose上使用GPU运行TensorFlow

在浏览器上使用GPU计算

GPU释放威力：在Gymnasium环境中使用稳定基线3在AMD GPU上训练强化学习代理

在 AMD GPU 上构建解码器 Transformer 模型

Meta 开源音乐生成模型 MusicGen

ubuntu上使用docker运行需要使用GPU的程序

电脑上同时安装了tensorflow和tensorflow-gpu，如何默认使用tensorflow-gpu

【30】GPU（上）：为什么玩游戏需要使用GPU？

在linux系统上使用conda 安装GPU版本TensorFlow-GPU（详细步骤）

kaldi上使用gpu以及如何安装cuda

使用docker在Ubuntu上安装TensorFlow-GPU

使用 1 个 GPU 在 Colab 上微调 LLama 2.0

2023 在Windows上的安装Faiss-GPU（使用anaconda）

Keras学习笔记（六）——如何在 GPU 上运行 Keras?以及如何在多 GPU 上运行 Keras 模型?，Keras会不会自动使用GPU？

使用AMD GPU和ONNX Runtime高效生成图像与Stable Diffusion模型

使用云监控实现GPU云服务器的GPU监控和报警（上） - 自定义监控

Running Tensorflow on AMD GPU

Windows7上使用VS2013编译Caffe源码(不带GPU支持)步骤

关于使用实验室服务器的GPU以及跑上TensorFlow代码

使用命令行查询服务器上tensorflow GPU的版本

Windows7上使用VS2013编译Caffe源码不带GPU支持步骤

在服务器上安装tensorflow-gpu版本及其使用

python使用skcua包实现GPU上的矩阵乘法，矩阵求逆

GPU 专业小贴士：在 Maxwell 架构上使用共享原子计算快速直方图

windows 系统查看NVIDIA显卡GPU情况，nvidia-smi在windows上使用

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)