声明：语音开源项目主要分享优秀的开源项目，促进开源社区的壮大。所写的内容主要是我个人看法，如有错误，还望指正。如有转载，请标注来源。欢迎关注微信公众号：低调奋进

VCTUBE : A Library for Automatic Speech Data Annotation

本文是自动语音标注库，主要为了自动生成语音合成系统的训练语料<audio, text>，相关的文章发表在interspeech2020，具体的文章链接

该python库的使用方法

1 项目简介

通常语音合成系统需要大量的训练语料<audio, text>，本文提出的python库VCTUBE是从youtube上自动下载视频和字幕，然后生成语音合成的训练语料。详细的体统结构如图1所示，该系统为三模块组成：1）audio 下载模块；2）字幕下载模块；3）音频分割模块。

2，使用方法

How To Use VCTUBE?

Requirment for VCTUBE

At first you need to install VCTUBE library by pip install command

pip3 install vctube

Command for VCTUBE

from vctube import VCtube

playlist_name = ""

playlist_url = ""

lang = "" # ex) ko, en, fr, de ...

vc = VCtube(playlist_name, playlist_url, lang)

vc.download_audio() #download audios from youtube

vc.download_captions() #download captions from youtube

vc.audio_split() #split audio with captions

VCTUBE Example

from vctube import VCtube

playlist_url = "https://www.youtube.com/watch?v=fj5BcN6Blks"

playlist_name="TEST"

lang = "en" #ex) ko, en, fr, de...

vc = VCtube(playlist_name, playlist_url, lang)

vc.download_audio()

vc.download_captions()

vc.audio_split()

3 实验

本文给出了英文和韩语的实验，从youtube上自动获取数据然后在tacotron上进行测试。table2为合成音频的WER测试，图2为对齐情况，说明自动生成的训练语料可用。