实时追踪科研动态丨微软发布代码生成的预训练扩散模型，10.30精选新论文

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。
在这里插入图片描述
2023年10月30日精选新论文列表：

1.CodeFusion: A Pre-trained Diffusion Model for Code Generation

论文介绍了一种名为CodeFusion的预训练扩散模型，用于代码生成。现有的自动回归代码生成模型在生成代码时存在一个限制，即不能轻易地重新考虑之前生成的令牌。CodeFusion通过迭代去噪一个基于编码自然语言的条件程序，从而解决了这一问题。作者在Bash、Python和Microsoft Excel条件格式化（CF）规则的自然语言到代码生成任务上评估了CodeFusion。实验结果表明，CodeFusion（7500万参数）在 top-1 精度上与最先进的自动回归系统（3.5亿-1750亿参数）相当，并且在top-3和top-5精度上由于其更好的多样性与质量平衡而优于它们。

https://www.aminer.cn/pub/653f11c2939a5f40828885eb?f=cs

2.ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

论文介绍了ZeroNVS，一种用于野外场景单张真实图像的新视角合成的3D感知扩散模型。与现有方法相比，这些方法针对的是带有遮罩背景的单个对象，我们提出了新技术来解决野外多对象场景复杂背景带来的挑战。具体来说，我们在捕捉对象中心、室内和室外场景的混合数据源上训练一个生成先验。为了解决数据混合带来的深度尺度模糊问题，我们提出了新颖的相机条件参数化和归一化方案。此外，我们观察到Score Distillation Sampling（SDS）在360度场景的蒸馏过程中倾向于截断复杂背景的分布，因此我们提出了“SDS锚定”来提高合成的全新视角的多样性。我们的模型在LPIPS上的DTU数据集零镜头设置中取得了新的最先进成果，甚至超过了专门针对DTU训练的方法。我们还将具有挑战性的Mip-NeRF 360数据集适应为新的单图像新视角合成基准，并在这个设置下展示了强大的性能。

https://www.aminer.cn/pub/653f11c2939a5f408288872f?f=cs

3.FP8-LM: Training FP8 Large Language Models

论文探讨了在大型语言模型（LLM）训练中使用 FP8 低比特数据格式以实现高效训练的可能性。作者发现，在 LLM 训练中，大多数变量（如梯度和学习器状态）可以使用低精度数据格式，而无需牺牲模型准确性或更改超参数。具体来说，作者提出了一个新的 FP8 自动混合精度框架，用于训练 LLM。该框架提供了三个 FP8 利用级别，以简化和优化 LLM 的混合精度分布式并行训练。实验结果表明，在使用 H100 GPU 平台的 GPT-175B 模型训练中，所提出的 FP8 混合精度训练框架不仅实现了显著的 42% 实际内存使用减少，而且比广泛采用的 BF16 框架（即 Megatron-LM）运行快 64%，超过 Nvidia Transformer Engine 17%。这大大降低了大型基础模型的训练成本。此外，所提出的 FP8 混合精度训练方法是通用的，可以无缝应用于其他任务，如 LLM 指令调整和强化学习与人类反馈，节省微调费用。

https://www.aminer.cn/pub/653f11c2939a5f408288886e?f=cs

4.PockEngine: Sparse and Efficient Fine-tuning in a Pocket

这篇论文介绍了一种名为PockEngine的紧凑、稀疏且高效引擎，用于在各种边缘设备上进行精细调整。现有的训练框架是为具有强大加速器（如GPU、TPU）的云服务器设计的，缺乏针对边缘学习的优化，而边缘学习面临着资源有限和边缘硬件多样性的挑战。PockEngine支持稀疏反向传播，通过剪枝反向图和稀疏更新模型，在保持模型质量的同时实现内存节省和延迟降低。其次，PockEngine采用编译优先的方法，整个训练图（包括正向、反向和优化步骤）在编译时导出，减少了运行时开销，为图变换提供了机会。PockEngine还集成了丰富的训练图优化技术，进一步加速了训练成本，包括操作符重新排序和后端切换。PockEngine支持多样化的应用程序、前端和硬件后端，可以灵活地编译和调整PyTorch/TensorFlow/Jax中定义的模型，并将二进制文件部署到移动CPU/GPU/DSP上。在视觉模型和大型语言模型上的评估表明，PockEngine比现成的TensorFlow快15倍（在树莓派上），比反向传播节省5.6倍内存（在Jetson AGX Orin上）。值得注意的是，PockEngine使能在NVIDIA Jetson AGX Orin上对LLaMav2-7B进行微调，达到550个标记/秒，比PyTorch快7.9倍。

https://www.aminer.cn/pub/653f11c2939a5f4082888635?f=cs

5.Large Language Models as Generalizable Policies for Embodied Tasks

论文研究了大型语言模型（LLMs）在具身视觉任务中的泛化表现。作者提出了一种名为"大型语言模型强化学习策略（LLaRP）"的方法，将预训练的大型语言模型调整为具身任务的通用策略。通过强化学习，LLaRP仅通过环境交互来学习并输出动作。研究表明，LLaRP对任务指令的复杂同义词替换具有鲁棒性，并能推广到需要新行为最优解的新任务。在1000个未见过的任务中，LLaRP的成功率为42%，是其他常见学习基线或零射线应用LLM成功率的1.7倍。最后，为了帮助社区研究语言条件下的具身大规模多任务问题，作者发布了一个名为"语言重排"的新基准，包含150,000个训练任务和1,000个测试任务，用于研究语言条件下的重排。

https://www.aminer.cn/pub/653f11c2939a5f4082888617?f=cs

6.A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications

论文介绍了一个用于自动测量大型语言模型（LLMs）和相关产品与服务责任AI（RAI）指标的框架。该框架利用了最先进的LLM（如GPT-4）的能力，并建立在现有的技术和社会学技术专长之上，用于自动测量大型语言模型可能产生的危害。通过这个框架，作者对几个案例进行了研究，探讨了不同的大型语言模型可能违反一系列RAI相关原则的方式。该框架可以与特定领域的社会学技术专长一起使用，在未来为新的危害领域创建测量方法。通过实现这个框架，作者旨在推动更先进的危害测量工作，进一步推动大型语言模型的负责任使用。

https://www.aminer.cn/pub/653f11c2939a5f4082888633?f=cs

7.Reconstructive Latent-Space Neural Radiance Fields for Efficient 3D Scene Representations

论文研究了如何使用重建潜在空间神经辐射场（NeRF）来高效地表示3D场景。尽管神经辐射场（NeRF）已被应用于图形、视觉和机器人技术中，但其渲染速度慢和特征视觉瑕疵限制了其在许多场景中的应用。在本文中，作者探究了将自动编码器（AE）与NeRF结合的方法，其中潜在特征（而不是颜色）被渲染，然后通过卷积解码。得到的潜在空间NeRF可以产生比标准颜色空间NeRF更高质量的新视角图像，因为AE可以纠正某些视觉瑕疵，同时渲染速度快三倍。此外，通过缩小AE架构可以在效率和图像质量之间进行权衡，实现超过13倍的渲染速度提升，同时性能仅略有下降。作者希望他们的方法可以成为一种高效、高保真度的3D场景表示，为下游任务提供基础，特别是在需要保持可微性的场景中，例如许多需要持续学习的机器人场景。

https://www.aminer.cn/pub/653f11c2939a5f40828886ba?f=cs

8.Personas as a Way to Model Truthfulness in Language Models

这篇论文研究了大型语言模型是否能在包含事实和误导性信息的互联网文本中辨别真伪。论文扩展了语言模型可以模拟不同实体产生语料库的观点，并提出假设：通过模拟真实个性的语言模型可以聚类真实文本，真实个性是指一群可能产生真实文本并具有相似特征的代理。例如，像维基百科和科学网这样的可靠来源通常使用正式的写作风格并做出一致的声明。通过模拟这种个性，LLM可以将真理不仅仅推广到每个代理生成训练文本的具体上下文中。例如，模型可以推断出“维基百科”将在“科学”仅生成的主题上表现出真实性，因为它们共享一个个性。论文首先通过两个观察结果为个性假设提供了证据：（1）我们可以在模型答案生成之前探测其是否真实；（2）在事实集上对模型进行微调可以提高其在未见过的主题上的真实性。接下来，使用算术作为合成环境，论文表明语言模型可以分离真伪陈述，并跨代理推广真实性；但只有当训练数据中的代理共享一个能够创建真实个性的真实生成过程。总的来说，我们的发现表明，模型可以利用数据中的层次结构来学习像真理这样的抽象概念。

https://www.aminer.cn/pub/653f11c2939a5f40828887dc?f=cs

9.ControlLLM: Augment Language Models with Tools by Searching on Graphs

论文介绍了一种名为ControlLLM的新框架，该框架使大型语言模型（LLMs）能够利用多模态工具来解决复杂的现实世界任务。尽管LLMs的性能非常出色，但它们在工具调用方面仍然存在困难，原因包括用户提示模糊、工具选择和参数化不准确以及工具调度效率低下。为克服这些挑战，该框架包含三个关键组件：（1）一个任务分解器，将复杂任务分解为具有明确输入和输出的清晰子任务；（2）一种思维图（ToG）范式，在预先构建的工具图上搜索最优解决方案路径，该路径明确了不同工具之间的参数和依赖关系；（3）一个执行引擎，具有丰富的工具箱，解释解决方案路径并在不同的计算设备上高效运行工具。作者在涉及图像、音频和视频处理的各种任务中评估了该框架，结果表明，与现有方法相比，ControlLLM在准确性、效率和多功能性方面具有优越性。

https://www.aminer.cn/pub/653f11c2939a5f408288866?f=cs

10.Data-Centric Financial Large Language Models

这篇论文探讨了在金融领域应用大型语言模型（LLM）的挑战，提出了一种以数据为中心的方法，使LLM能更好地处理金融任务。该方法通过多任务提示微调来创建一个金融LLM（FLLM），实现数据的预处理和预理解。由于每个任务的标注数据稀缺，作者采用归纳增强推理（AAR）来自动生成训练数据，通过修改FLLM自身输出的伪标签来实现。实验结果表明，与针对原始文本设计的基线金融LLM相比，数据为中心的FLLM与AAR在金融分析和解释任务上取得了最先进的表现。此外，作者还开源了一个新的金融分析和解释基准。这种方法为在复杂现实领域解锁LLM的潜力提供了有前景的途径。

https://www.aminer.cn/pub/653f11c2939a5f4082888656?f=cs

实时追踪科研动态丨微软发布代码生成的预训练扩散模型，10.30精选新论文

猜你喜欢