每日学术速递5.31

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

标题：无提示扩散：从文本到图像扩散模型中提取“文本”

作者：Xingqian Xu, Jiayi Guo, Zhangyang Wang, Gao Huang, Irfan Essa, Humphrey Shi

文章链接：https://arxiv.org/abs/2305.16223

项目代码：https://github.com/SHI-Labs/Prompt-Free-Diffusion

摘要：

由于大规模的预训练扩散模型和许多新兴的个性化和编辑方法，文本到图像 (T2I) 的研究在过去一年中呈爆炸式增长。然而，一个痛点仍然存在：文本提示工程和搜索高质量文本提示以获得定制结果与其说是科学，不如说是一门艺术。此外，正如人们普遍认为的那样：“一张图像胜过千言万语”——试图用文本描述所需图像的尝试往往以含糊不清告终，无法全面涵盖精致的视觉细节，因此需要从视觉领域进行更多的额外控制。在本文中，我们向前迈出了大胆的一步：将“文本”从预训练的 T2I 扩散模型中取出，以减少用户繁重的提示工程工作。我们提出的框架 Prompt-Free Diffusion 仅依靠视觉输入来生成新图像：它将参考图像作为“上下文”、可选的图像结构条件和初始噪声，完全没有文本提示。场景背后的核心架构是语义上下文编码器 (SeeCoder)，它取代了常用的基于 CLIP 或基于 LLM 的文本编码器。SeeCoder 的可重用性也使其成为一个方便的插入式组件：人们还可以在一个 T2I 模型中预训练 SeeCoder 并将其重用于另一个模型。通过广泛的实验，Prompt-Free Diffusion 在实验上被发现 (i) 优于先前基于样本的图像合成方法；(ii) 按照最佳实践使用提示与最先进的 T2I 模型执行相同的操作；(iii) 可以自然地扩展到其他下游应用程序，例如动漫人物生成和虚拟试穿，质量有希望。我们的代码和模型在这个 https URL 上是开源的。

2.Materialistic: Selecting Similar Materials in Images

标题：唯物主义：在图像中选择相似的材料

作者：Prafull Sharma, Julien Philip, Michaël Gharbi, William T. Freeman, Fredo Durand, Valentin Deschaintre

文章链接：https://arxiv.org/abs/2305.13291

摘要：

将图像分成有意义的底层组件是编辑和理解图像的关键的第一步。我们提出了一种能够选择照片区域的方法，该区域展示与艺术家选择的区域相同的材料。我们提出的方法对阴影、镜面高光和投射阴影具有鲁棒性，可以在真实图像中进行选择。由于我们不依赖于语义分割（不应该一起选择不同的木材或金属），我们将问题表述为基于用户提供的图像位置的基于相似性的分组问题。特别是，我们建议利用无监督的 DINO 特征以及建议的交叉相似性模块和 MLP 头来提取图像中的材料相似性。我们在发布的新合成图像数据集上训练我们的模型。我们表明我们的方法可以很好地推广到真实世界的图像。我们仔细分析了我们的模型在不同材料属性和光照下的行为。此外，我们根据 50 张真实照片的手动注释基准对其进行评估。我们进一步在一组应用程序上展示了我们的模型，包括材料编辑、视频内选择和检索具有相似材料的对象照片。

Subjects: cs.CL

3.Voyager: An Open-Ended Embodied Agent with Large Language Models

标题：Voyager：具有大型语言模型的开放式具体代理

作者：Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar

文章链接：https://arxiv.org/abs/2305.16291

项目代码：https://voyager.minedojo.org/

摘要：

视我们介绍 Voyager，它是 Minecraft 中第一个由 LLM 驱动的具身终身学习代理，它可以在没有人为干预的情况下不断探索世界，获得多样化的技能，并做出新的发现。Voyager 由三个关键组件组成：1) 一个最大化探索的自动课程，2) 一个不断增长的可执行代码技能库，用于存储和检索复杂的行为，以及 3) 一个新的迭代提示机制，它结合了环境反馈、执行错误，和程序改进的自我验证。Voyager 通过黑盒查询与 GPT-4 交互，绕过了模型参数微调的需要。Voyager 开发的技能在时间上是可扩展的、可解释的和组合的，这可以迅速复合智能体的能力并减轻灾难性遗忘。从经验上看，Voyager 显示出强大的情境终身学习能力，并且在玩 Minecraft 时表现出非凡的熟练程度。它获得的独特物品增加了 3.3 倍，行进距离增加了 2.3 倍，解锁关键技术树里程碑的速度比之前的 SOTA 快了 15.3 倍。Voyager 能够在新的 Minecraft 世界中利用学到的技能库从头开始解决新任务，而其他技术则难以推广。我们在这个 https URL 上开源我们的完整代码库和提示。

更多Ai资讯：公主号AiCharm
在这里插入图片描述

猜你喜欢