大模型日报|8 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.LongReward:利用 AI 反馈改进长文本大语言模型

尽管在开发长文本大语言模型(LLMs)方面取得了重大进展,但用于有监督微调(SFT)的 LLM 合成数据质量不佳,往往会影响 SFT 模型的长文本性能,并导致其固有的局限性。原则上,采用适当奖励信号的强化学习(RL)可以进一步提高模型的能力。然而,如何在长文本场景中获得可靠的奖励信号仍有待探索。

为此,来自清华大学、中国科学院大学和智谱的研究团队提出了一种新方法–LongReward,它利用现成的 LLM,从四个人类重视的维度为长文本模型的回复提供奖励:帮助性、逻辑性、忠实性和完整性,每个维度都有一个精心设计的评估 pipeline。通过结合 LongReward 和离线 RL 算法 DPO,他们能够有效地改进长文本 SFT 模型。实验表明,LongReward 不仅能显著提高模型的长文本性能,还能增强它们遵循短指令的能力。他们还发现,带有 LongReward 的长文本 DPO 和传统的短文本 DPO 可以同时使用,而不会影响任何一方的性能。

论文链接:
https://arxiv.org/abs/2410.21252
GitHub 地址:
https://github.com/THUDM/LongReward

2.用于乳腺癌综合预后的多模态人工智能

乳腺癌的治疗选择以分子亚型和临床特征为指导。复发风险评估在个性化治疗中起着至关重要的作用。包括基因组检测在内的现有方法准确性和临床实用性有限,导致许多患者无法做出最佳决定。

来自 Ataraxis AI 的研究团队及其合作者利用开发了一种基于数字病理学和临床特征的乳腺癌患者分层测试。具体来说,他们利用基于 vision transformer 的泛癌症基础模型,通过自监督学习训练,从数字化的 H&E 染色切片中提取特征。这些特征与临床数据相结合,形成了预测癌症复发和死亡的多模态人工智能测试。

该测试的开发和评估使用了来自 7 个国家 15 个队列共 8161 名乳腺癌患者的数据。其中,来自五个队列的 3502 名患者专门用于评估,其余患者用于训练。他们的测试准确预测了五个外部队列的主要疗效指标-无病生存期(C-指数:0.71 [0.68-0.75],HR:3.63 [3.02-4.37,p<0.01])。在直接比较中(858 人),人工智能检测比标准 21 基因检测 Oncotype DX 更准确,C 指数分别为 0.67 [0.61-0.74] 和 0.61 [0.49-0.73]。此外,在多变量分析中,人工智能检验还为 Oncotype DX 增加了独立信息(HR:3.11 [1.91-5.09,p<0.01)])。该检验在包括 TNBC 在内的所有主要乳腺癌亚型中都表现出了很高的准确性(C 指数:0.71 [0.62-0.81],HR:3.81 [2.35-6.17,p=0.02]),而目前临床指南并未推荐任何诊断工具。

这些结果表明,他们的人工智能检测可以提高准确性,适用于更广泛的患者,并提高治疗选择工具的可及性。

论文链接:
https://arxiv.org/abs/2410.21256

3.Kandinsky-3:一种新型文生图扩散模型

文生图(T2I)扩散模型是引入图像处理方法的常用模型,如编辑、图像融合、图像修复等。同时,图生视频(I2V)和文生视频(T2V)模型也建立在 T2I 模型之上。来自 SberAI 的研究团队及其合作者推出了一种基于潜在扩散的新型 T2I 模型——Kandinsky 3,其具有很高的质量和逼真度。

新架构的主要特点是简单高效,可适应多种类型的生成任务。他们针对各种应用扩展了基础 T2I 模型,并创建了一个多功能生成系统,其中包括文本引导的补画/扩画、图像融合、文本图像融合、图像变化生成、I2V 和 T2V 生成。他们还提出了经过提炼的 T2I 模型版本,在不降低图像质量的情况下,在反向流程的 4 个步骤中对推理进行评估,速度比基本模型快 3 倍。他们部署了一个用户友好型演示系统,所有功能都可以在公共领域进行测试。

此外,他们还发布了 Kandinsky 3 和扩展模型的源代码和检查点。人工评估结果显示,Kandinsky 3 是开源生成系统中质量得分最高的系统之一。

论文链接:
https://arxiv.org/abs/2410.21061
GitHub 地址:
https://github.com/ai-forever/Kandinsky-3

4.Meta 推出 MarDini:用于大规模视频生成的掩码自回归扩散

来自 Meta 和阿卜杜拉国王科技大学的研究团队推出了 MarDini,一种新的视频扩散模型系列,将掩码自回归(MAR)的优势整合到统一的扩散模型(DM)框架中。在这里,MAR 处理时间规划,而 DM 侧重于非对称网络设计中的空间生成:基于 MAR 的规划模型包含大部分参数,使用低分辨率输入为每个屏蔽帧生成规划信号;轻量级生成模型使用这些信号,通过扩散去噪生成高分辨率帧。

MarDini 的 MAR 可以在任意帧位置的任意屏蔽帧数量上生成视频:一个模型可以处理视频插值(如屏蔽中间帧)、图生视频生成(如从第二帧开始屏蔽)和视频扩展(如屏蔽一半帧)。高效的设计将大部分计算资源分配给了低分辨率规划模型,从而使计算成本高昂但重要的时空注意机制在规模上变得可行。MarDini 为视频插帧技术设置了新SOTA;同时,只需几个推理步骤,它生成视频的效率可媲美价格昂贵得多的先进图生视频模型。

论文链接:
https://arxiv.org/abs/2410.20280
项目地址:
https://mardini-vidgen.github.io/

5.用于分子-靶标和特性预测的多视图生物医学基础模型

应用于生物分子空间的基础模型有望加速药物发现。分子表征是建立此类模型的关键。以往的研究通常只关注分子的单一表征或视图。

来自 IBM、克利夫兰医学中心的研究团队及其合作者开发了一种多视图基础模型方法,它整合了图形、图像和文本的分子视图。单视图基础模型分别在多达 2 亿个分子的数据集上进行预训练,然后聚合成组合表征。他们的多视图模型在 18 个任务的不同集合上进行了验证,包括配体-蛋白质结合、分子溶解度、代谢和毒性。

研究表明,多视图模型表现出鲁棒性,能够平衡特定视图的优缺点。然后,他们将该模型应用于针对大量(大于 100 个靶点)G 蛋白偶联受体(GPCR)的化合物筛选。从这个靶点库中,他们确定了 33 个与阿尔茨海默病有关的靶点。在这一子集上,他们采用该模型来识别强结合体,并通过基于结构的建模和关键结合基团的识别对其进行验证。

论文链接:
https://arxiv.org/abs/2410.19704

6.综述:人工智能生成视频评估

人工智能生成视频内容的能力日益增强,这给有效评估这些视频带来了重大挑战。与静态图像或文本不同,视频内容涉及复杂的时空动态,需要对其内容进行更全面、更系统的评估,如视频呈现质量、语义信息传递、与人类意图的一致性,以及虚拟现实与物理世界的一致性等方面。

该调查确定了人工智能生成视频评估(AIGVE)这一新兴领域,强调了评估人工智能生成视频与人类感知的一致性以及满足特定指令的重要性。加州大学团队对可能用于评估人工智能生成视频的现有方法进行了结构化分析。通过概述当前方法的优势和不足,他们主张开发更强大、更细致的评估框架,以应对视频内容的复杂性,其中不仅包括传统的基于度量的评估,还包括当前的人工参与评估以及未来的以模型为中心的评估。这次调查旨在为学术界研究人员和业界从业人员建立一个基础知识库,促进人工智能生成的视频内容评估方法的未来发展。

论文链接:
https://arxiv.org/abs/2410.19884

7.综述:一文读懂小语言模型 SLM

小语言模型(SLM)凭借高效率和高性能以最少的计算资源执行各种语言任务,使其成为包括端侧、移动、边缘设备等各种环境的理想选择,因而变得越来越重要。

来自俄勒冈大学、美国东北大学和卡内基梅隆大学的研究团队及其合作者对 SLM 进行了全面调查,重点关注其架构、训练技术和模型压缩技术。他们提出了一种新的分类法,用于对优化 SLM 的方法进行分类,包括模型压缩、剪枝和量化技术。他们总结了有助于对 SLM 进行基准测试的 benchmark 数据集以及常用的评估指标。此外,他们还强调了尚待解决的关键挑战。他们的调查旨在为有兴趣开发和部署小型高效语言模型的研究人员和从业人员提供宝贵的资源。
论文链接:
https://arxiv.org/abs/2410.20011

8.马里兰大学推出新型视频 tokenizer LARP

马里兰大学推出了一种新型视频 tokenizer——LARP,旨在克服当前自回归(AR)生成模型视频 tokenization 方法的局限性。与直接将局部视觉 patch 编码为离散 token 的传统 patchwise tokenizer 不同,LARP 引入了一种整体 tokenization 方案,利用一组 learned holistic queries 从视觉内容中收集信息。这种设计使 LARP 能够捕捉到更多的全局和语义表征,而不是局限于局部 patch-level 信息。

此外,它还提供了灵活性,支持任意数量的离散 token,可根据任务的具体要求实现自适应和高效的 tokenization。为了使离散 token 空间与下游 AR 生成任务保持一致,LARP 集成了一个轻量级 AR transformer,作为 training-time prior 模型,在其离散潜空间上预测下一个 token。通过在训练过程中加入 prior 模型,LARP 可以学习一个潜空间,该潜空间不仅针对视频重建进行了优化,其结构也更有利于自回归生成。

此外,这一过程还为离散 token 定义了顺序,在训练过程中逐步将它们推向最佳配置,确保在推理时生成更平滑、更准确的自回归。综合实验证明了 LARP 的强大性能,它在 UCF101 类条件视频生成 benchmark 上实现了 SOTA FVD。LARP 增强了 AR 模型与视频的兼容性,为建立统一的高保真多模态大语言模型(MLLM)提供了可能。

论文链接:
https://arxiv.org/abs/2410.21264
项目地址:
https://hywang66.github.io/larp/

猜你喜欢

转载自blog.csdn.net/AMiner2006/article/details/143384625