多模态 Arxiv 2024/10/28 | 腾讯提出多模态 Web Agent,大模型也能学会自己上网了?

多模态 Arxiv 2024/10/28 | 腾讯提出多模态 Web Agent,大模型也能学会自己上网了?

原创 sunworshipper 多模态DailyArxiv 2024年10月28日 22:24 北京

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

作者: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu

机构:腾讯 AiLab

图片

翻译摘要: 大型语言和多模态模型的快速发展激发了人们对使用专有模型(如GPT-4o)开发能够处理真实世界场景(如网络导航)的自治代理的浓厚兴趣。尽管最近的开源努力已试图让代理具备探索环境和持续自我提升的能力,但他们构建的是在合成环境中的纯文本代理,其中奖励信号是明确定义的。这样的代理难以泛化到需要多模态感知能力并且缺乏真实信号的现实设置中。在本文中,我们介绍了一个旨在促进开发可以自主进行现实世界探索并自我提高的多模态网络代理的开源框架。我们首先通过模仿学习训练基础模型以获得基本能力。然后,我们让代理探索开放的网络并收集对其轨迹的反馈。之后,代理通过从另一个通用模型评判的表现良好的轨迹中学习,以进一步改善其策略。这种探索-反馈-优化循环可以进行多次迭代。实验结果表明,我们的网络代理在每次迭代后成功地自我改进,展示了在多个测试集上的强大性能。

发表日期: 2024-10-25T15:01:27Z

最新更新日期: 2024-10-25T15:01:27Z

链接: http://arxiv.org/abs/2410.19609v1

KAHANI: Culturally-Nuanced Visual Storytelling Pipeline for Non-Western Cultures

作者: Hamna, Deepthi Sudharsan, Agrima Seth, Ritvik Budhiraja, Deepika Khullar, Vyshak Jain, Kalika Bali, Aditya Vashistha, Sameer Segal

翻译摘要: 大型语言模型(LLMs)和文本到图像(T2I)模型已经证明了自己在生成引人入胜的文本和视觉故事方面的能力。然而,它们的输出大多与全球北方的感性对齐,这常常导致对其他文化的外部观点。因此,非西方社区需要额外的努力来生成具有文化特性的故事。为了解决这个挑战,我们开发了一个名为KAHANI的视觉讲故事管道,它为非西方文化生成植根于文化的视觉故事。我们的管道利用现成的GPT-4 Turbo和Stable Diffusion XL (SDXL)模型。通过使用思维链(CoT)和T2I提示技术,我们从用户的提示中捕获文化背景,并生成对人物和场景构成的生动描述。为了评估KAHANI的有效性,我们进行了一项比较用户研究,与ChatGPT-4(配合DALL-E3)相比较,在这项研究中,来自印度不同地区的参与者比较了两种工具生成的故事的文化相关性。对用户研究进行的定性和定量分析结果表明,与ChatGPT-4相比,KAHANI能够捕获并整合更多的文化特定项目(CSIs)。无论是在文化能力还是视觉故事生成质量方面,我们的管道在36次比较中有27次胜过了ChatGPT-4。

发表日期: 2024-10-25T09:23:24Z

最新更新日期: 2024-10-25T09:23:24Z

链接: http://arxiv.org/abs/2410.19419v1

Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models

作者: Yucheng Zhou, Zhi Rao, Jun Wan, Jianbing Shen

翻译摘要: 大型视觉语言模型(LVLMs)在跨模型任务中表现出色,但由于过分依赖文本信息和视觉依赖性降低,在长语境推理中表现下降。在本研究中,我们对LVLMs在长语境推理中进行了实证分析,发现语境长度的增加导致对语言的依赖性增加,而视觉依赖性减少。为了解决这一问题,我们提出了一种新颖的无需训练的语境修剪方法,该方法有选择地去除不太重要的文本信息。我们的方法增强了视觉依赖性,减少了文本噪音,从而提高了LVLM在长语境推理中的性能。我们通过构建一个长语境数据集来验证我们的方法,证明了其在各种LVLM上的有效性。此外,进一步的分析确认了不同标记修剪策略的稳健性,并初步探讨了修剪率和语境长度之间的比例定律。

发表日期: 2024-10-25T17:59:09Z

最新更新日期: 2024-10-25T17:59:09Z

链接: http://arxiv.org/abs/2410.19732v1

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

作者: Yuxuan Cai, Jiangning Zhang, Haoyang He, Xinwei He, Ao Tong, Zhenye Gan, Chengjie Wang, Xiang Bai

翻译摘要: 大型语言模型(LLM)的成功促使研究人员探索多模态大型语言模型(MLLM),以实现视觉和语言的统一理解。然而,MLLM不断增加的模型规模和计算复杂性限制了它们在资源受限环境中的使用。小规模多模态大型语言模型(s-MLLM)旨在在减少计算需求的同时保留大规模模型(l-MLLM)的能力,但这导致了性能的显著下降。为了解决上述问题,我们提出了一种新颖的LLaVA-KD框架,用于将知识从l-MLLM转移到s-MLLM。具体来说,我们引入了多模态蒸馏(MDist)来最小化l-MLLM和s-MLLM之间视觉-文本输出分布的偏差,并且引入了关系蒸馏(RDist)来转移l-MLLM建模视觉特征之间相关性的能力。此外,我们还提出了一个三阶段训练方案来充分发挥s-MLLM的潜力:1)蒸馏预训练以对齐视觉-文本表示,2)监督式微调以赋予模型多模态理解能力,3)蒸馏微调以进一步转移l-MLLM的能力。我们的方法显著提高了性能,而不改变小型模型的架构。大量实验和剖析研究验证了每个提出组件的有效性。代码将在https://github.com/Fantasyele/LLaVA-KD上提供。

发表日期: 2024-10-21T17:41:28Z

最新更新日期: 2024-10-25T06:19:13Z

链接: http://arxiv.org/abs/2410.16236v2

Vript: A Video Is Worth Thousands of Words

作者: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao

翻译摘要: 在多模态学习领域的进展,尤其是视频理解和生成领域,需要高质量的视频-文字数据集来提高模型性能。Vript针对这一问题推出了一个精心标注的12K高分辨率视频语料库,为超过420K个视频片段提供了详细、密集且类似剧本的字幕。每个片段的字幕大约有145个单词,比大多数视频-文字数据集的字幕长度长10倍以上。与以往数据集中仅记录静态内容的字幕不同,我们通过记录内容以及摄像机操作(包括镜头类型(中景、特写等)和摄像机移动(平移、倾斜等))来将视频字幕提升为视频剧本。通过使用Vript,我们探索了三种训练范式,将更多的文字与视频模态而非片段-字幕对齐。这导致了Vriptor,一个在开源模型中表现最佳的视频字幕模型,与GPT-4V的性能相当。Vriptor还是一个强大的模型,能够端到端生成长视频的密集和详细的字幕。此外,我们引入了Vript-Hard,一个包括三个视频理解任务的基准测试,这些任务比现有基准测试更具挑战性:Vript-HAL是评估视频LLMs中动作和对象幻觉的第一个基准测试,Vript-RR结合了推理和检索,解决长视频问答中的问题模糊性,而Vript-ERO是一个评估长视频中事件时间理解而非以往作品中短视频中的动作的新任务。所有的代码、模型和数据集都可以在https://github.com/mutonix/Vript中找到。另附:我们在Vript系列中增加了更多的视频-文字数据集(Vript_CN和Vript_Multilingual)。

发表日期: 2024-06-10T06:17:55Z

最新更新日期: 2024-10-25T06:32:09Z

链接: http://arxiv.org/abs/2406.06040v2

TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

作者: Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang

机构:上海AiLab

翻译摘要: 多模态大型语言模型(MLLM)在短视频理解方面展现出了令人印象深刻的性能。然而,长视频的理解对MLLM来说仍然是一项挑战。本文提出了TimeSuite,一个新的设计集合,用来改适现有的短视频MLLM以理解长视频,包括一个简单而高效的处理长视频序列的框架,一个用于MLLM基础调优的高质量视频数据集,以及一个精心设计的指令调优任务,明确地将基础监督融入传统的问答格式中。特别是基于VideoChat,我们提出了我们的长视频MLLM,称为VideoChat-T,通过实施令牌洗牌来压缩长视频令牌,并引入时间自适应位置编码(TAPE)来增强视觉表现的时间感知。同时,我们推出了TimePro,一个以基础为中心的综合性指令调优数据集,由9个任务和349k高质量基础标注组成。值得注意的是,我们设计了一种新的指令调优任务类型,称为时间定位字幕,用来执行与相应时间戳预测的详细视频描述。这种显式的时间位置预测将指导MLLM在生成描述时正确关注视觉内容,从而减少由LLM引起的可能产生幻觉的风险。实验结果表明,我们的TimeSuite为提高短视频MLLM的长视频理解能力提供了一个成功的解决方案,在Egoschema和VideoMME基准测试中分别取得了5.6%和6.8%的改进。另外,VideoChat-T展现出了强大的零样本时间定位能力,显著超过了现有的最先进的MLLM。在经过微调后,其性能可与传统的有监督专家模型相媲美。

发表日期: 2024-10-25T17:19:55Z

最新更新日期: 2024-10-25T17:19:55Z

链接: http://arxiv.org/abs/2410.19702v1

Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition

作者: Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle

翻译摘要: 视觉叙事包括根据时间顺序排列的一系列图像生成自然语言故事。这个任务不仅对模型来说是挑战性的,而且由于没有一致的标准来界定什么构成了一个“好”的故事,因此使用自动化指标来评估是非常困难的。在本文中,我们引入了一种新方法,该方法根据人的认知特征在视觉定位、连贯性和重复性三个关键方面来衡量故事的质量,这三个方面在之前的工作中已经被强调过。然后我们使用这种方法来评估几个模型生成的故事,显示基础模型LLaVA获得的结果最好,但与TAPM相比,后者仅略逊一筹,而且TAPM的模型大小只有LLaVA的1/50。升级TAPM的视觉和语言组件,结果产生了一个参数相对较少而表现力竞争力的模型。最后,我们进行了人类评估研究,研究结果表明,一个“好”的故事可能需要的不仅仅是类人水平的视觉定位、连贯性和重复程度。

发表日期: 2024-07-05T14:48:15Z

最新更新日期: 2024-10-25T13:47:11Z

链接: http://arxiv.org/abs/2407.04559v4

MotionCraft: Physics-based Zero-Shot Video Generation

作者: Luca Savant Aira, Antonio Montanaro, Emanuele Aiello, Diego Valsesia, Enrico Magli

翻译摘要: 生成具有真实性和物理合理性运动的视频是计算机视觉领域近期的一个主要挑战。虽然扩散模型在图像生成上取得了令人瞩目的成果,但在视频扩散模型方面,由于训练成本高和模型庞大,产生的视频仍然偏向训练数据集。在这项工作中,我们提出了 MotionCraft,这是一个全新的零样本(zero-shot)视频生成器,用于创造基于物理的、真实的视频。MotionCraft 能够通过应用来自物理模拟的光流,对图像扩散模型(如 Stable Diffusion)的噪声潜在空间进行扭曲。我们展示了如何通过扭曲噪声潜在空间,使得所需的运动得以连贯地应用,同时允许模型生成与场景演变一致的缺失元素,如果光流是在像素空间应用的话,否则会导致画面出现瑕疵或缺失内容。我们将我们的方法与最先进的 Text2Video-Zero 进行了比较,报告了定性和定量上的改进,证明了我们的方法在生成具有精细规定的复杂运动动力学的视频方面的有效性。项目页面:https://mezzelfo.github.io/MotionCraft/

发表日期: 2024-05-22T11:44:57Z

最新更新日期: 2024-10-25T10:01:22Z

链接: http://arxiv.org/abs/2405.13557v2

Edge-preserving noise for diffusion models

作者: Jente Vandersanden, Sascha Holl, Xingchang Huang, Gurprit Singh

翻译摘要: 经典的生成式扩散模型学习一个各向同性的高斯去噪过程,平等地对待所有空间区域,因此忽略了数据中可能存在的有价值的结构信息。受到图像处理中长期确立的各向异性扩散工作的启发,我们提出了一种新颖的保边缘扩散模型,该模型是去噪扩散概率模型(DDPM)的泛化。特别地,我们引入了一种边缘感知的噪声调度器,它介于保边缘和各向同性的高斯噪声之间变化。我们显示了我们模型的生成过程更快地收敛于与目标分布更为接近的结果。我们证明了它在学习数据集中的低至中频率方面表现更好,这在表示形状和结构信息方面发挥着关键作用。我们的保边缘扩散过程在无条件图像生成方面一致性地超越了最新技术水平的基线。对于由形状先验指导的生成任务,如笔画到图像的生成,它也更为稳健。我们提供了定性和定量结果,显示在两项任务上均有高达30%的一致性改进(FID分数)。我们通过公共域名 edge-preserving-diffusion.mpi-inf.mpg.de 提供源代码和补充内容。

发表日期: 2024-10-02T13:29:52Z

最新更新日期: 2024-10-25T09:44:10Z

链接: http://arxiv.org/abs/2410.01540v2

Knowledge-aware Text-Image Retrieval for Remote Sensing Images

作者: Li Mi, Xianjie Dai, Javiera Castillo-Navarro, Devis Tuia

翻译摘要: 在大型地球观测档案库中的基于图像的检索任务是具有挑战性的,因为用户需要仅凭查询图像在成千上万的候选匹配中进行导航。通过使用文本作为视觉查询的辅助信息,检索系统的可用性得到了提升,但同时也面临困难,因为多样化的视觉信号并不能仅通过一个简短的标题来概括。因此,作为一种基于匹配的任务,跨模态文本-图像检索常常受到文本和图像之间信息不对称的困扰。为了应对这一挑战,我们提出了一种面向遥感图像的知识感知文本-图像检索(KTIR)方法。通过从外部知识图谱挖掘相关信息,KTIR扩充了搜索查询中可用的文本范围,并减轻了文本与图像之间的信息差距,以实现更好的匹配。此外,通过整合特定领域的知识,KTIR还提升了预训练的视觉-语言模型对遥感应用的适应性。在三个常用的遥感文本-图像检索基准测试上的实验结果表明,所提出的知识感知方法带来了多样化和一致性的检索结果,优于现有最先进的检索方法。

发表日期: 2024-05-06T11:27:27Z

最新更新日期: 2024-10-25T09:31:37Z

链接: http://arxiv.org/abs/2405.03373v2

FaceChain-FACT: Face Adapter with Decoupled Training for Identity-preserved Personalization

作者: Cheng Yu, Haoyu Xie, Lei Shang, Yang Liu, Jun Dan, Liefeng Bo, Baigui Sun

翻译摘要: 在以人为中心的个性化图像生成领域,基于适配器的方法通过对面部数据进行文本到图像的训练,获得了定制和生成肖像的能力。这允许在推理时保持身份信息而无需额外的微调即可实现个性化。虽然在效率和真实度上有所改进,与基础模型相比,在测试跟随能力、可控性和生成面孔的多样性方面经常会出现显著的性能下降。在本文中,我们分析了性能下降归因于在特征提取时未能将身份特征与其他属性解耦,以及未能将肖像生成训练与整体生成任务解耦。为解决这些问题,我们提出了具有解耦训练(FACT)框架的面部适配器,专注于模型架构和训练策略。为了将身份特征与其他特征解耦,我们利用基于变换器的面部导出编码器并利用细粒度的身份特征。为了解耦肖像生成训练,我们提出了面部适应增量正则化(FAIR),它有效地限制了面部适配器对面部区域的影响,保留了基础模型的生成能力。此外,我们还结合课程学习,引入了面部条件丢弃和洗牌机制,以增强面部的可控性和多样性。因此,FACT仅从训练数据中学习身份保留,从而最小化对基础模型原有文本到图像能力的影响。广泛的实验表明,FACT在文本到图像生成和肖像生成修复解决方案中都具有可控性和真实性。

发表日期: 2024-10-16T07:25:24Z

最新更新日期: 2024-10-25T06:56:54Z

链接: http://arxiv.org/abs/2410.12312v2