DeepSinger от Microsoft издает звуки, которые можно петь на английском и китайском языках.

 

 

 


Группа исследователей из Microsoft и Чжэцзянского университета недавно разработала многоязычную систему синтеза голоса для нескольких певцов (SVS) под названием DeepSinger . Система была построена с нуля с использованием данных по обучению вокалу, полученных с музыкальных сайтов.

С развитием глубоких нейронных сетей, Singing Voice Synthesis (SVS) генерирует певческие голоса с помощью текстов песен, что в последние годы привлекло большое внимание в исследовательских и промышленных кругах. Этот метод похож на метод « преобразования текста в речь», при котором машина говорит .



Традиционный SVS в основном полагается на записи и аннотации, сделанные человеком, и требует большого количества высококачественных записей пения в качестве обучающих данных и строгого согласования данных между текстами песен и звуком пения для достижения точного моделирования пения. В результате это увеличивает стоимость маркировки данных и препятствует разработке продуктов в этой области. Эти текущие проблемы привели к разработке новой системы SVS DeepSinger.

За DeepSinger

 

DeepSinger, система синтеза певческого голоса, создана с нуля с использованием данных для обучения вокалу. Конвейер DeepSinger включает в себя несколько этапов интеллектуального анализа данных и моделирования. они есть:-

  • Сканирование данных: чтобы получить большое количество песен из Интернета, исследователи просканировали тысячи песен и тексты своих лучших певцов на трех разных языках (китайском, кантонском и английском) с музыкального веб-сайта.
  • Разделение пения и аккомпанемента:  Spleeter - популярный инструмент разделения музыки, используемый для разделения пения и сопровождения песни.
  • Согласование от текста к пению: создание модели согласования может сегментировать звук на предложения и извлекать продолжительность пения каждой фонемы в тексте.
  • Фильтрация данных: выровненные тексты песен и певческие голоса затем фильтруются в соответствии с согласованной оценкой достоверности.
  • Модель пения: создан преобразователь с прямой связью на основе FastSpeech, который использует эталонный кодировщик для обработки данных шума.

 

Исследователи разработали модель выравнивания текста и певца, основанную на автоматическом распознавании речи, чтобы автоматически извлекать продолжительность каждой фонемы в тексте, от уровня грубых предложений до уровня мелкозернистых фонем. 

Кроме того, они разработали многоязычную модель пения с несколькими певцами, основанную на преобразователе с прямой связью под названием FastSpeech, который может напрямую генерировать линейные спектрограммы из текстов песен и использовать Griffin-Lim для синтеза речи, которая является популярной. линейная звуковая спектрограмма.

Преимущества DeepSinger

По сравнению с предыдущей системой SVS DeepSinger имеет множество преимуществ. Они упомянуты ниже:


держи связь

Получайте последние обновления и связанные предложения, поделившись своей электронной почтой.
 
 
Подпишись сейчас

 

  • По словам исследователей, DeepSinger может сэкономить время, поскольку может извлекать данные о тренировках прямо с музыкальных веб-сайтов.
  • Это позволяет избежать каких-либо искусственных меток совмещения, что является рентабельным методом.
  • DeepSinger по своей сути проще и эффективнее, чем предыдущая система SVS.
  • Он может синтезировать певческие голоса нескольких языков и нескольких певцов. 

Вклад этого исследования

Вклады этой статьи следующие:

  • DeepSinger - первая система SVS, построенная с использованием данных, извлеченных непосредственно из Интернета, без каких-либо записанных человеком высококачественных данных о пении.
  • Модель выравнивания от текста до пения позволяет избежать ручной работы по выравниванию тегов и значительно снижает стоимость тегов.
  • Благодаря устранению сложного моделирования акустических характеристик в синтезе параметров и использованию эталонного кодировщика для захвата тембра певца из зашумленных певческих данных, основанная на FastSpeech модель певческого голоса становится простой и эффективной.
  • DeepSinger может синтезировать высококачественные певческие голоса нескольких языков и нескольких певцов.

заворачивать

Чтобы оценить эффективность системы DeepSinger, исследователи использовали чистый набор данных о пении онлайн, который включал 92 часа данных, 89 певцов и три языка. По словам исследователей, результаты экспериментов показывают, что DeepSinger может синтезировать певческие голоса высокого качества с точки зрения точности высоты тона и естественности звука.

В здесь читал газету.

рекомендация

отblog.csdn.net/c2a2o2/article/details/110184550