DeepSinger от Microsoft издает звуки, которые можно петь на английском и китайском языках.

Группа исследователей из Microsoft и Чжэцзянского университета недавно разработала многоязычную систему синтеза голоса для нескольких певцов (SVS) под названием DeepSinger . Система была построена с нуля с использованием данных по обучению вокалу, полученных с музыкальных сайтов.

С развитием глубоких нейронных сетей, Singing Voice Synthesis (SVS) генерирует певческие голоса с помощью текстов песен, что в последние годы привлекло большое внимание в исследовательских и промышленных кругах. Этот метод похож на метод « преобразования текста в речь», при котором машина говорит .

Традиционный SVS в основном полагается на записи и аннотации, сделанные человеком, и требует большого количества высококачественных записей пения в качестве обучающих данных и строгого согласования данных между текстами песен и звуком пения для достижения точного моделирования пения. В результате это увеличивает стоимость маркировки данных и препятствует разработке продуктов в этой области. Эти текущие проблемы привели к разработке новой системы SVS DeepSinger.

За DeepSinger

DeepSinger, система синтеза певческого голоса, создана с нуля с использованием данных для обучения вокалу. Конвейер DeepSinger включает в себя несколько этапов интеллектуального анализа данных и моделирования. они есть:-

Сканирование данных: чтобы получить большое количество песен из Интернета, исследователи просканировали тысячи песен и тексты своих лучших певцов на трех разных языках (китайском, кантонском и английском) с музыкального веб-сайта.
Разделение пения и аккомпанемента: Spleeter - популярный инструмент разделения музыки, используемый для разделения пения и сопровождения песни.
Согласование от текста к пению: создание модели согласования может сегментировать звук на предложения и извлекать продолжительность пения каждой фонемы в тексте.
Фильтрация данных: выровненные тексты песен и певческие голоса затем фильтруются в соответствии с согласованной оценкой достоверности.
Модель пения: создан преобразователь с прямой связью на основе FastSpeech, который использует эталонный кодировщик для обработки данных шума.

Исследователи разработали модель выравнивания текста и певца, основанную на автоматическом распознавании речи, чтобы автоматически извлекать продолжительность каждой фонемы в тексте, от уровня грубых предложений до уровня мелкозернистых фонем.

Кроме того, они разработали многоязычную модель пения с несколькими певцами, основанную на преобразователе с прямой связью под названием FastSpeech, который может напрямую генерировать линейные спектрограммы из текстов песен и использовать Griffin-Lim для синтеза речи, которая является популярной. линейная звуковая спектрограмма.

Преимущества DeepSinger

По сравнению с предыдущей системой SVS DeepSinger имеет множество преимуществ. Они упомянуты ниже:

держи связь

Получайте последние обновления и связанные предложения, поделившись своей электронной почтой.

Подпишись сейчас

Также посмотрите

без категории

После игр в покер и го, обучение с подкреплением превосходит игроков в маджонг

По словам исследователей, DeepSinger может сэкономить время, поскольку может извлекать данные о тренировках прямо с музыкальных веб-сайтов.
Это позволяет избежать каких-либо искусственных меток совмещения, что является рентабельным методом.
DeepSinger по своей сути проще и эффективнее, чем предыдущая система SVS.
Он может синтезировать певческие голоса нескольких языков и нескольких певцов.

Вклад этого исследования

Вклады этой статьи следующие:

DeepSinger - первая система SVS, построенная с использованием данных, извлеченных непосредственно из Интернета, без каких-либо записанных человеком высококачественных данных о пении.
Модель выравнивания от текста до пения позволяет избежать ручной работы по выравниванию тегов и значительно снижает стоимость тегов.
Благодаря устранению сложного моделирования акустических характеристик в синтезе параметров и использованию эталонного кодировщика для захвата тембра певца из зашумленных певческих данных, основанная на FastSpeech модель певческого голоса становится простой и эффективной.
DeepSinger может синтезировать высококачественные певческие голоса нескольких языков и нескольких певцов.

заворачивать

Чтобы оценить эффективность системы DeepSinger, исследователи использовали чистый набор данных о пении онлайн, который включал 92 часа данных, 89 певцов и три языка. По словам исследователей, результаты экспериментов показывают, что DeepSinger может синтезировать певческие голоса высокого качества с точки зрения точности высоты тона и естественности звука.

В здесь читал газету.