实时追踪科研动态丨7.18来自微软、清华等机构精选新论文

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。
在这里插入图片描述

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:https://www.aminer.cn/chat/g/

2023年7月18日精选新论文列表:

1.TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT 论文详情页

链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaed33/?f=cs

ChatPaper综述:论文讨论了在现实世界数据库中使用表格进行分析和操作所需的时间和工作量较大的问题。大型语言模型(LLMs)的进步使得使用自然语言输入与表格交互成为可能,使得这种能力更接近于现实。作者提出了TableGPT,这是一个统一的经过精细调整的框架,可以使LLMs理解和操作表格,并使用外部功能命令。TableGPT引入了与表格无缝交互的能力,实现了问答、数据操作(例如插入、删除、查询和修改操作)、数据可视化、分析报告生成和自动预测等多种功能。TableGPT致力于为用户提供便利和易用性,使他们能够轻松利用表格数据。TableGPT的核心是全局表格表示的新概念,它使LLMs能够深入理解除元信息以外的整个表格。通过同时训练LLMs的表格和文本模态,TableGPT实现了对表格数据的深入理解,并能够通过命令链执行复杂的操作。重要的是,TableGPT具有自包含系统的优势,而不是依赖于外部API接口。此外,它支持高效的数据流程、查询拒绝(在适当时)和私有部署,可实现更快的领域数据精细调整,并确保数据隐私,增强了该框架对特定用例的适应性。

2.INVE: Interactive Neural Video Editing 论文详情页

链接:https://www.aminer.cn/pub/64b60e7d3fda6d7f06ea80e3/?f=cs

ChatPaper综述:说明了目前现有的视频编辑解决方案存在的两个主要问题:速度过慢和对某些编辑用例的支持不足。为了解决这些挑战,研究人员采用了高效的网络架构和基于哈希网格编码的方法,大大提高了处理速度。另外,他们还学习了图像图集和向量化编辑之间的双向功能,从而在图集和帧之间实现了更多的编辑操作。与现有解决方案相比,INVE能够缩短学习和推理时间,支持更多种类的视频编辑操作。通过全面的定量和定性分析,展示了INVE在交互式视频编辑方面相比现有解决方案的优势和改进性能。

3.Language Conditioned Traffic Generation 论文详情页

扫描二维码关注公众号,回复: 15924317 查看本文章

链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaea41/?f=cs

ChatPaper综述:说明了模拟器在自动驾驶开发中的重要性,以及目前面临的一个主要挑战:缺乏逼真、可扩展且有趣的内容。同时介绍了一种新的方法LCTGen,它利用语言作为动态交通场景生成的监督源。LCTGen模型结合了大型语言模型和基于Transformer的解码器架构,从地图数据集中选择可能的地点,并生成初始交通分布以及每辆车的行为。通过实验,LCTGen在无条件和有条件的交通场景生成中表现出更高的逼真度和保真度,优于先前的工作。

4.CoTracker: It is Better to Track Together 论文详情页

链接:https://www.aminer.cn/pub/64b60e7d3fda6d7f06ea80be/?f=cs

ChatPaper综述:论文指出,传统的视频运动预测方法要么通过光流估计给定视频帧中所有点的瞬时运动,要么独立地跟踪视频中各个点的运动。即使是能够在被遮挡情况下跟踪点的强大深度学习方法,也是如此。独立跟踪点忽略了点之间可能存在的强相关性,例如它们属于同一个物体,这可能会影响性能。因此,本文提出了一种名为CoTracker的架构,它能够在整个视频中联合跟踪多个点。该架构结合了光流和跟踪领域的一些想法,设计出了一种新的、灵活且强大的模型。它基于一个Transformer网络,通过专门的注意力层模拟了不同点在时间上的相关性。Transformer通过迭代更新多个轨迹的估计值。它可以按照滑动窗口的方式应用于非常长的视频,并针对该情况设计了一个展开的训练循环。它可以同时跟踪一个到多个点,并支持随时添加新的跟踪点。结果是一个灵活而强大的跟踪算法,几乎在所有基准测试中都表现出优越性能。因此,该论文解决了视频中多点跟踪问题。

5.Diffusion Models Beat GANs on Image Classification 论文详情页

链接:https://www.aminer.cn/pub/64b60eaf3fda6d7f06eaf562/?f=cs

ChatPaper综述:说明了一种统一的表征学习方法——扩散模型在图像分类任务上的表现优于生成对抗网络(GANs)。扩散模型是一种用于图像生成、去噪、修复、超分辨率、操作等的最新方法,并通过训练一个U-Net来预测和去除噪音,从而生成高保真度、多样性和新颖性的图像。作者发现,U-Net的中间特征图可以作为有区分性信息的嵌入,并可用于分类任务。作者探索了提取和使用这些嵌入进行分类任务的最佳方法,并在ImageNet分类任务上展示了有希望的结果。作者还在多个细粒度图像分类数据集上研究了扩散模型在迁移学习方案下的表现,并将这些嵌入与其他架构和预训练方法生成的嵌入进行了比较。

6.Retentive Network: A Successor to Transformer for Large Language Models 论文详情页

链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaecfd/?f=cs

ChatPaper综述:论文提出了一种名为RetNet的网络架构,用于构建大型语言模型。该模型同时实现了训练并行性、低成本推理和良好的性能。论文首先在理论上推导了循环和注意力之间的关联,然后提出了序列建模的保留机制,支持并行、循环和分块循环这三种计算范式。具体来说,通过并行表示实现了训练的并行性,通过循环表示实现了低成本的推理,提高了解码吞吐量、延迟和GPU内存利用率,而不损失性能。通过分块循环表示实现了具有线性复杂度的高效长序列建模,其中每个块都可以并行编码,并通过循环对块进行总结。语言建模的实验结果表明,RetNet在可扩展性、并行训练、低成本部署和高效推理方面都取得了良好的效果。

7.Planting a SEED of Vision in Large Language Model 论文详情页

链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaeaa5/?f=cs

ChatPaper综述:该研究说明了在大型语言模型中使用图像标记器的问题。此前的图像标记器研究一直陷入僵局,使用量化的视觉标记的框架由于在多模态理解(与BLIP-2等相比)或生成(与稳定扩散等相比)方面的性能和收敛性不佳而失去了重要性。尽管存在这些限制,但我们仍然对其能够自然地统一视觉和文本表示的能力充满信心,从而促进了LLM的可扩展多模态培训。在这项研究中,我们确定了SEED的体系结构和培训的两个关键原则,这些原则有效地简化了与LLM的后续对齐。第一,图像标记应该与二维物理补丁位置无关,并且应该以1D因果依赖产生,展示了与LLM中的从左到右自回归预测机制一致的内在相互依赖关系。第二,图像标记应该捕捉与单词中的语义抽象程度一致的高级语义,并在标记器培训阶段进行优化,以便在辨别和重构方面得到改进。因此,现成的LLM能够通过有效的LoRA调整将我们的SEED纳入进行图像到文本和文本到图像的生成。全面的多模态预训练和指令调整可能会产生更好的结果,这是未来研究的重点。这个版本的SEED是在仅使用64个V100 GPU和500万个公开可用的图像-文本对进行训练的5.7天内完成的。我们的初步研究强调了离散视觉标记在多功能多模态LLM中的巨大潜力,以及适当的图像标记器在更广泛研究中的重要性。

8.AlpaGasus: Training A Better Alpaca with Fewer Data 论文详情页

链接:https://www.aminer.cn/pub/64b60eaf3fda6d7f06eaf561/?f=cs

ChatPaper综述:论文说明了在使用大型语言模型进行指令追踪时,存在常用的指令微调数据集中包含许多低质量的实例,这些实例具有错误或无关的回应,这对指令微调是误导性的和有害的。论文提出了一种简单而有效的数据选择策略,使用强大的语言模型(如ChatGPT)自动识别和删除低质量数据。为此,论文引入了AlpaGasus,并且只对从52k的Alpaca数据中筛选出的9k高质量数据进行微调。AlpaGasus在多个测试集上显著优于原始的Alpaca模型,并且其13B版本在测试任务上达到了其教师语言模型(即Text-Davinci-003) > 90 >90\\% >90的性能。它还提供了5.7倍的更快训练速度,将7B版本的训练时间从80分钟(Alpaca)缩短到14分钟。总体而言,AlpaGasus展示了一种新颖的以数据为中心的指令微调范例,可以普遍应用于指令微调数据,实现更快的训练和更好的指令追踪模型。

9.BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs 论文详情页

链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaecd4/?f=cs

ChatPaper综述:说明了当前语言模型(LM)在多模态输入上存在的问题,即它们仅构建了粗粒度的映射,缺乏对输入的具体部分进行定位的能力。为了改善用户体验并扩展多模态LM的应用场景,该研究提出了名为BuboGPT的多模态LM,具备视觉定位能力,可以在视觉、音频和语言之间进行跨模态交互,提供对视觉对象和其他给定模态的细粒度理解。通过在生成响应或描述对象时能够指出图像中对象的具体位置,BuboGPT能够实现精确的视觉定位。该研究的贡献包括:1) 基于SAM的现成视觉定位模块,可以提取句子中的实体并找到图像中对应的掩码;2) 一种两阶段训练方案和指令数据集,以赋予文本-图像-音频的联合理解能力。实验证明,BuboGPT在与人类进行交互时具有出色的多模态理解和视觉定位能力。无论提供的模态组合是对齐的还是不对齐的,它都能表现出一致的良好性能。


如何使用ChatPaper?

使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。
在这里插入图片描述
在ChatPaper页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。

猜你喜欢

转载自blog.csdn.net/AI_Conf/article/details/131807885
今日推荐