大家好,今日必读的大模型论文来啦!
1.Meta 推出基础多模态语言模型,可自由混合文本和语音
Meta 推出了可自由混合文本和语音的基础多模态语言模型 SPIRIT-LM。该模型基于一个预训练的文本语言模型,并通过在文本和语音单元上进行持续训练,来扩展到语音模态。语音和文本序列被连接为一组 tokens,并使用一个小型自动筛选的语音-文本平行语料库,使用单词级交错方法进行训练。Spirit LM 可以在各种模态(即 ASR、TTS、语音分类)中以少样本学习的方式完成新任务。
论文链接:
https://arxiv.org/pdf/2402.05755
项目地址:
https://speechbot.github.io/spiritlm/
2.谷歌推出生成式无限游戏 Unbounded
来自谷歌和北卡罗来纳大学的研究团队推出了“生成式无限游戏”(generative infinite game)的概念,即通过使用生成式模型,超越传统的有限、硬编码系统界限的视频游戏。
受 James P. Carse 区分有限游戏和无限游戏的启发,他们利用生成式人工智能的最新进展,创建了 Unbounded:一款完全由生成式模型封装的角色生活模拟游戏。Unbounded 从沙盘生活模拟中汲取灵感,可以让玩家在虚拟世界中通过喂养、玩耍和引导自主虚拟角色与之互动——由 LLM 生成开放式机制,其中一些机制可能是“涌现”的。
为了开发 Unbounded,他们在 LLM 和视觉生成领域提出了技术创新。具体来说,他们提出了:(1)一个专门的、经过提炼的大语言模型(LLM),可实时动态生成游戏机制、叙事和角色互动;(2)一个用于视觉模型的新型动态区域图像提示适配器(IP-Adapter),可确保在多个环境中一致而灵活地生成角色的视觉效果。他们通过定性和定量分析对系统进行了评估,结果表明,与传统的相关方法相比,该系统在角色生活模拟、用户指令遵循、叙事连贯性以及角色和环境的视觉一致性方面都有显著改进。
论文链接:
https://arxiv.org/abs/2410.18975
GitHub 地址:
https://generative-infinite-game.github.io/
3.Meta 推出 LongVU:用于长视频语言理解的时空自适应压缩技术

多模态大语言模型(MLLM)在理解和分析视频内容方面取得了可喜的进展。然而,受限于 LLM 的上下文长度,处理长视频仍然是一项重大挑战。为了解决这一限制,Meta 联合阿卜杜拉国王科技大学和高丽大学的研究团队推出了一种时空自适应压缩机制 LongVU,它可以减少视频 tokens 的数量,同时保留长视频的视觉细节。
他们的想法是利用跨模态查询和帧间依赖关系,自适应地减少视频中的时空冗余。具体来说,他们利用 DINOv2 特征来删除相似度高的冗余帧。然后,利用文本引导的跨模态查询来选择性地减少帧特征。此外,他们还根据帧与帧之间的时间依赖关系对帧进行空间 tokens 缩减。他们的自适应压缩策略能有效处理大量帧,在给定的上下文长度内几乎不会损失视觉信息。在各种视频理解基准测试中,LongVU 始终超越现有方法,尤其是在长达一小时的视频理解任务(如 VideoMME 和 MLVU)中。在轻量级 LLM 的情况下,LongVU 还能有效地扩展到更小的规模,并在视频理解性能方面达到 SOTA。
论文链接:
https://arxiv.org/abs/2410.17434
GitHub 地址:
https://github.com/Vision-CAIR/LongVU
4.V-GPS:通过价值引导改进机器人基础模型
在各种演示数据集上训练的大型通用机器人策略已被证明对在各种不同场景中控制各种机器人和掌握广泛的操作技能非常有效。然而,这些策略训练所依据的数据通常质量参差不齐,不仅人类收集的演示不可能完美地完成任务,而且数据集越大,就越难筛选出高质量的示例。此外,来自一个具身的数据对另一个具身的最佳训练效果如何也仍不清楚。
基于此,来自加州大学伯克利分校和卡内基梅隆大学的研究团队推出了一种通用且广泛适用的方法,该方法根据通过离线 RL 学习到的价值函数对机器人的行动进行重新排序,从而在部署时提高此类通用机器人策略的性能。他们将这种方法称为 “价值引导策略指导”(Value-Guided Policy Steering,V-GPS),它与各种不同的通用策略兼容,无需对策略权重进行微调,甚至无需访问权重。研究表明,相同的价值函数可以提高五种不同架构的先进策略的性能,即使它们是在不同的数据集上训练出来的,也能在多个机器人平台上总共 12 项任务中获得一致的性能提高。
论文链接:
https://arxiv.org/abs/2410.13816
项目地址:
https://nakamotoo.github.io/V-GPS/
5.NIH 推出医学大语言模型操作指南
大语言模型(LLM)能够在不同的上下文中生成类似人类的反应,并根据人类指令适应新任务,从而彻底改变医疗保健的各个方面。它们的潜在应用范围涵盖广泛的医疗任务,如临床文档、将患者与临床试验相匹配以及回答医疗问题。
在这篇入门论文中,来自美国国立卫生研究院(NIH)的研究团队及其合作者推出了一个可操作的指南,帮助医疗专业人员在工作中更有效地利用 LLM,并提供了一套最佳实践。该方法由几个主要阶段组成,包括制定任务、选择 LLM、提示工程、微调和部署。
他们首先讨论了在确定与 LLM 核心功能对齐的医疗保健任务以及根据所选任务和数据、性能要求和模型接口选择模型时的关键考虑因素。然后,他们回顾了使标准 LLMs 适应专业医疗任务的策略,如提示工程和微调。此外,他们还讨论了部署方面的注意事项,包括监管合规性、道德准则以及对公平性和偏差的持续监控。通过提供结构化的分步方法,该教程旨在为医疗保健专业人员提供将 LLM 有效整合到临床实践中所需的工具,确保以安全、可靠和有影响力的方式应用这些技术。
论文链接:
https://arxiv.org/abs/2410.18856
GitHub 地址:
https://github.com/ncbi-nlp/LLM-Medicine-Primer