Meta AI发布SeamlessM4T模型，支持转录和翻译近100种语言｜已开源

一、前言

Meta AI 近期的重磅动作频频不断，短短一个多月的时间接连发布了一系列开源大模型，下面我们看看都有哪些有影响力的产品。

2023 年 7 月 14 日

Meta AI 隆重推出 CM3leon，这是一款首个多模态模型，可实现最先进的文本到图像生成性能，计算效率是竞争模型的 5 倍。

2023 年 7 月 18 日

Meta 和 Microsoft 推出下一代 Llama，Llama 2 可免费用于研究和商业用途。

Llama 2 是 Meta 的开源大语言模型 (LLM)。这基本上是 Facebook 母公司对 OpenAI 的 GPT 模型和 Google 的 AI 模型（如 PaLM 2）的回应，但有一个关键区别：它几乎可以免费供任何人用于研究和商业目的。2023 年 8 月 16 日

2023 年 8 月 2 日

Meta 的母公司 Facebook 推出了一款名为 AudioCraft 的新型生成式人工智能工具，该工具允许用户使用文本提示创建高质量的音频和音乐。该工具包括音频模型MusicGen、AudioGen和EnCodec，可以根据文本提示生成音乐和音频。

AudioCraft 由三个模型组成：MusicGen、AudioGen 和 EnCodec。 MusicGen 使用 Meta 拥有且专门授权的音乐进行训练，根据文本提示生成音乐，而 AudioGen 使用公共音效进行训练，根据文本提示生成音频。

2023 年 8 月 23 日

Meta AI 隆重推出 SeamlessM4T，这是第一个一体化多语言多模式翻译模型。这个单一模型可以根据任务执行多达 100 种语言的语音到文本、语音到语音、文本到文本翻译和语音识别任务。

同日，MetaAI 的新 SeamlessM4T 模型现已在 Hugging Face 上提供！

2023 年 8 月 24 日（计划）

据The Information报道，Meta计划于本周四（8月24日）发布开源代码生成AI模型 Code Llama。该模型旨在帮助开发人员在编写代码时自动推荐代码片段，以提升开发效率，同时也旨在使公司更便于创建AI助手。

今天，我们将主要介绍 SeamlessM4T 多语言多任务的模型。

二、关于 SeamlessM4T

Meta AI 于 2023年8月23日发布了一款名为SeamlessM4T的AI开源语言翻译模型，它可以帮助用户将近100种语言进行转录和翻译。这款模型是基于Meta的AI技术开发的，可以帮助用户更快、更准确地翻译各种语言。 Meta AI 声称，经过数十亿个句子和数百万小时的语音数据的训练，它在嘈杂的转录和不太常见的语言方面优于现有模型。

SeamlessM4T 通过解决有限语言覆盖范围和依赖单独系统的挑战，代表了语音到语音和语音到文本领域的重大突破。

SeamlessM4T 大型模型可以在Google Colab 提供的免费 T4 VRAM上运行，在 T4 上占用大约 6GB VRAM，感兴趣的可以快速体验一下，Colab地址在文末处。

SeamlessM4T是一种基础的多语言和多任务模型，可以无缝翻译和转录语音和文本。 SeamlessM4T 支持：

自动语音识别近百种语言
近 100 种输入和输出语言的语音到文本翻译
语音翻译，支持近100种输入语言和35种（+英语）输出语言
近 100 种语言的文本到文本翻译
文本转语音翻译，支持近100种输入语言和35种（+英语）输出语言

与级联方法相比，SeamlessM4T 的单一系统方法减少了错误和延迟，提高了翻译效率和质量，提供了最先进的结果。

关于SeamlessM4T 模型，使用多任务UnitY模型架构，它能够直接生成翻译后的文本和语音。这种新架构还支持自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译，这些功能已经成为普通 UnityY 模型的一部分。多任务 UnitY 模型由三个主要的顺序组件组成。文本和语音编码器的任务是识别近 100 种语言的语音输入。然后，文本解码器将该含义转换为近 100 种文本语言，然后使用文本到单元模型将其解码为 36 种语音语言的离散声学单元。对自监督编码器、语音到文本、文本到文本翻译组件和文本到单元模型进行预训练，以提高模型的质量和训练稳定性。然后将解码的离散单元转换为使用多语言 HiFi-GAN 单元声码器进行语音。

SeamlessM4T是一款非常先进的AI翻译模型，它采用了最新的深度学习技术，可以实现高精度的翻译。这款模型还具有很强的自适应能力，可以根据用户的需求进行自动调整和优化，从而提供更好的翻译效果。

除了翻译外，SeamlessM4T还可以帮助用户进行语音转录和文字转录。这意味着用户可以通过该模型将语音或文字转换为任何一种支持的语言。这对于那些需要跨语言沟通的人来说非常有用。

SeamlessM4T的应用场景非常广泛。例如，在国际贸易、旅游、教育等领域，SeamlessM4T可以帮助人们更好地进行跨语言交流。此外，在政府、医疗等领域，SeamlessM4T也可以发挥重要作用。

三、总结

总之，SeamlessM4T是一款非常强大、先进的AI翻译模型，它可以帮助用户更好地进行跨语言交流。如果你需要进行跨语言沟通，那么SeamlessM4T绝对是一个值得尝试的工具。

四、References

SeamlessM4T GitHub Repo
https://github.com/facebookresearch/seamless_communication
SeamlessM4T Pager
https://ai.meta.com/research/publications/seamless-m4t/
SeamlessM4T News
https://ai.meta.com/blog/seamless-m4t/
Hugging Face Space
https://huggingface.co/models?search=facebook/seamless-m4t
SeamlessM4T Demo
https://seamless.metademolab.com/demo
SeamlessM4T Colab
https://github.com/camenduru/seamless-m4t-colab