7月热门论文丨Llama 2开源横扫大模型世界,AI自己开发软件,Transformer扩展至10亿Token

2023年已经过去60%了!AI在过去的时间中,不断表现出惊人的能力。七月热门论文已更新,相对于之前根据论文的影响力,这一次,我们更加看重技术给我们带来了什么?

首先,Llama 2的开源令大模型世界瞩目,免费可商用,包含 70 亿、130 亿和 700 亿三种参数变体,专门针对对话使用情况进行了优化。作为一款强大的语言模型,Llama 2的开源版本凭借其出色的性能和灵活性,已经在多个应用场景中展现了强大的实力。

清华大学孙茂松教授团队研究了让多个大模型Agents组成一个团体,运营一个虚拟的科技公司进行协作式软件开发。这是一种新的概念,AI提供了想象力,我们有理由期待这种趋势在未来会得到更广泛的应用。

而微软提出的LONGNET,可以将Transformer模型的规模扩展至10亿个Token。这意味着Transformer模型能够处理更长的文本序列,从而在更多自然语言处理任务中取得更好的效果。

在这里我们展示出最具有代表性的17篇热门论文,若想获取全部论文,可点击文末链接。

1.Llama 2: Open Foundation and Fine-Tuned Chat Models

Meta开源了免费可商用版本的Llama 2,包含 70 亿、130 亿和 700 亿三种参数变体,专门针对对话使用情况进行了优化。
在这里插入图片描述

2.Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems

63位4个机构学者共同合作的 AI for Science综述,论文指出了人工智能在量子、原子和连续系统科学中所面临的一些问题,讨论了其他一些常见的技术挑战,提供了一些学习和教育资源的分类列表,旨在促进AI for Science领域的进一步研究和发展。
在这里插入图片描述

3.Meta-Transformer: A Unified Framework for Multimodal Learning

作者提出了一个名为Meta-Transformer的框架,它利用一个冻结的编码器来进行多模态感知,而无需配对的多模态训练数据。为使用Transformer实现统一的多模态智能开发指出了一个有前途的未来。
在这里插入图片描述

4.Optimized Network Architectures for Large Language Model Training with Billions of Parameters

作者发现LLMs的通信模式是独特的,只有小组GPU之间需要进行高带宽的任何到任何通信,而这些组内以外的通信是微不足道、稀疏且均匀分布的。为了解决这个问题,作者提出了一种新的网络架构,它将集群分为一组由非阻塞任何到任何高带宽互连方式连接的GPU集合,称为HB域。可以将网络成本降低高达75%,同时不会影响LLM训练的性能。
在这里插入图片描述

5.TokenFlow: Consistent Diffusion Features for Consistent Video Editing

给定一个源视频和一个目标文本提示,生成一个高质量的视频,作者提出了一个框架,利用文本到图像的扩散模型的能力来实现以文本驱动的视频编辑任务。
在这里插入图片描述

6.Communicative Agents for Software Development

清华大学孙茂松教授团队最近研究了让多个大模型Agents组成一个团体,运营一个虚拟的科技公司(ChatDev)进行协作式软件开发。在仅给定一条自然语言需求下,ChatDev可以帮用户全自动化生成软件。
在这里插入图片描述
7.Retentive Network: A Successor to Transformer for Large Language Models

论文提出了一种用于构建大型语言模型—RetNet网络架构,同时实现了训练并行性、低成本推理和良好的性能。
在这里插入图片描述

8.DreamTeacher: Pretraining Image Backbones with Deep Generative Models

这项工作介绍了一个自我监督的特征表示学习框架DreamTeacher,利用生成网络对下游图像骨干进行预训练。
在这里插入图片描述

9.In-context Autoencoder for Context Compression in a Large Language Model

介绍了一个名为In-context Autoencoder (ICAE)的模型,用于在大型语言模型中进行上下文压缩。
在这里插入图片描述
10.A Survey on Graph Neural Networks for Time Series: Forecasting, Classification, Imputation, and Anomaly Detection

GNN for Time Series全面综述,囊括时间序列预测、分类、异常检测、以及缺失数据补全任务。
在这里插入图片描述
11.CAME: Confidence-guided Adaptive Memory Efficient Optimization

ACL2023杰出论文,新加坡国立大学、华为诺亚方舟实验室等研究人员提出 CAME 优化器,在减少内存消耗的同时,拥有与 Adam 相同的性能,通过 CAME 优化器训练大语言模型,能够大幅度降低大模型训练的成本。
在这里插入图片描述
12.VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

李飞飞团队具身智能最新成果,机器人接入大模型,在模拟和真实机器人环境中进行了大规模的研究,能执行超过30个以自由形式的自然语言指定的日常操作任务的能力。
在这里插入图片描述
13.A Survey on Graph Classification and Link Prediction based on GNN

文章旨在介绍基于图神经网络的图分类和链路预测方法,首先详细介绍了图卷积神经网络的基本原理,然后阐述了基于注意力机制和自编码器的图神经网络模型,总结了它们在节点分类、图分类和链路预测等任务中的应用以及相关数据集。
在这里插入图片描述
14.LONGNET: Scaling Transformers to 1,000,000,000 Tokens

论文介绍了一种Transformer变体—LONGNET,可以将序列长度扩展到超过10亿个标记,而不会牺牲对较短序列的性能。
在这里插入图片描述

15.Segment Anything Meets Point Tracking

论文提出了SAM-PT方法,将SAM模型的能力扩展到跟踪和分割动态视频中的任何目标。
在这里插入图片描述
16.Generate Anything Anywhere in Any Scene

介绍了一种能够生成任意场景、任意地点和任意物体的文本到图像扩散模型。
在这里插入图片描述
17.RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

该研究解决了如何将在互联网规模数据上训练的视觉-语言模型直接应用于端到端的机器人控制,以提高泛化能力和实现新兴的语义推理的问题。
在这里插入图片描述


点击链接,下载“7月必读论文集:

https://www.aminer.cn/topic/64d08d4d7dcf6a339bc6713c

猜你喜欢

转载自blog.csdn.net/AI_Conf/article/details/132163524
今日推荐