多模态和多智能体系统与理性的结合综述研究

人工智能咨询培训老师叶梓 转载标明出处

尽管大模型(LLMs)在生成类人文本方面取得了显著成就,但它们在处理复杂情境时仍存在偏见、不一致性和理解困难等问题。例如框架效应、确定性效应、过度权重偏见和联合谬误等。这些偏见对LLMs在自然语言处理研究中的实用性构成了挑战,尤其是在医疗、金融和法律服务等对可靠性和一致性要求极高的领域。为了克服这些挑战,研究者们开始探索多模态和多智能体系统的潜力,以期通过合作提高决策的一致性和可靠性。

本文《Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey》由宾夕法尼亚大学和阿贡国家实验室的研究者共同撰写。文章旨在通过调查最新的研究成果,理解多模态和多智能体系统是否正在向理性方向发展,并识别这些系统在理性方面的进展。

理性与系统设计

如图1所示,本文用了公理化方法来定义理性,并提出了四个实质性的公理,这些公理是期望一个理性智能体或智能体系统所应满足的:基础性、偏好的可排序性、独立于无关情境以及不变性。 这些公理要求智能体的决策必须基于现实,能够对选项进行逻辑排序,不受无关信息影响,并在不同表述中保持一致性。

基础性强调智能体的决策应基于现实世界的信息,例如航班预订智能体需要准确获取机场信息。偏好的可排序性意味着智能体能够比较不同选项并作出一致的选择。独立于无关情境要求智能体在决策时忽略不相关的信息。不变性则表明智能体的偏好不会因为问题表述的不同而改变。

论文强调理性与推理虽然紧密相连,但并不等同。理性涉及做出与现实一致的逻辑决策,而推理则是指从可用信息中得出逻辑推断和结论的认知过程。例如,在输入空间和输出决策空间都是有限的环境下,一个从输入到输出具有一致映射的查找表在本质上是理性的,而映射中并不一定包含推理。尽管如此,必须承认推理在确保理性方面通常起着至关重要的作用,特别是在复杂且动态的真实世界场景中,简单的查找表是不够的。智能体必须具备通过新颖情境进行推理、适应变化环境、制定计划的能力,并基于不完整或不确定的信息做出理性决策。理性也与机器心理学中的心理理论(ToM)不同,ToM指的是模型理解他人的心理状态、信仰、欲望、情感和意图可能与自己的不同。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987 

通过多模态和多智能体系统实现理性

论文探讨了多模态和多智能体系统在提升智能体理性方面的最新进展。并按照研究领域进行分类,如知识检索或神经符号推理。

多模态模型与基础性及不变性:多模态方法旨在通过语言和视觉等多种渠道改善信息基础性。例如,CLIPVLBERTViLBERTBLIP-2FlamingoLLaVACogVLMMiniGPT-4GPT-4 VisionGPT-4oGemini 1.5 Pro 等多模态基础模型,为多模态智能体系统在视觉等领域的知识基础提供了基石。这些模型通过大规模跨模态预训练阶段,将视觉和语言输入无缝地标记化到一个联合的隐藏嵌入空间中,通过数据驱动的方法学习跨模态相关性,从而促进了不变性。

知识检索与基础性:在面对不确定性时,大模型常常产生幻觉,生成不受环境事实支持的输出。检索增强生成(RAG)是解决这一固有局限性的重要里程碑。RAG指的是任何向大模型的输入上下文提供外部知识的机制,并帮助它提供最新、事实和基础的信息。

工具使用与基础性、不变性和独立性:使智能体使用工具也扩展了它们有限的工作记忆,类似于检索外部知识。Toolformer允许大模型通过预定义的语法使用外部工具的API调用,有效地扩展了它们超越固有限制的能力,并强制执行一致和可预测的输出。

神经符号推理与偏好的可排序性、不变性和独立性:神经符号推理是实现一致偏好排序和不变性的另一种有前景的方法,它结合了多智能体系统中语言和符号逻辑的优势。LogicLM结合了问题制定、符号推理和结果解释智能体,其中符号推理器为大模型提供了确定性的符号求解器来执行推理,确保一致地选择正确答案。

反思、辩论和记忆与偏好的可排序性及不变性:由于大模型的输出是概率性的,这类似于人类系统1认知的快速、非迭代性质,确保偏好的可排序性和不变性是具有挑战性的。相比之下,使智能体能够进行自我反思的算法和促进辩论及共识的多智能体系统可以帮助输出更紧密地与系统2过程的深思熟虑和逻辑决策一致,从而增强智能体的理性推理。

评估智能体的理性

评估多模态和多智能体系统中智能体理性的研究相对较少。尽管存在许多推理基准测试,但它们并不直接测量理性,且可能因数据污染问题导致性能评估不准确。论文提出,需要更多研究来探索大模型在决策任务中的潜在偏见,并强调了评估智能体的基础性、偏好的可排序性、不变性原则和独立于无关情境的能力。

适应认知心理学实验:提出了使用认知心理学中的小故事实验来测试大模型是否容易受到认知偏见和谬误的影响,但这些方法大多非正式且主观。

测试基础性与幻觉:评估智能体的基础性通常通过幻觉的程度来衡量,目前多模态和多智能体的基准测试有限。

测试偏好的可排序性:目前缺乏评估大模型或智能体选择偏好一致性的基准测试,需要更多研究来评估这一点。

测试不变性原则:研究调查了大模型是否能够对同一任务的不同表述生成一致的响应,强调了开发超越表面扰动的评估方法的必要性。

测试独立于无关情境:需要更广泛的扰动来评估智能体的决策是否独立于无关情境,新的基准测试开始评估多模态智能体在长上下文或图像序列中的表现。

开放问题与未来方向

目前将多模态和多智能体系统集成到大模型中,并不能使它们本质上变得更理性。尽管这些系统可以模仿理性思考,但如何将这种理性反馈到模型的初始响应中,而不仅仅是微调,仍是一个开放性问题。

目前的评估方法主要关注最终性能的准确性,而忽略了中间推理步骤和理性概念。大多数现有的理性基准测试在多智能体框架和单一智能体基线之间提供的比较有限,未能充分阐明多智能体框架的优势。未来的研究应该优先开发更健壮和可扩展的评估理性的方法,同时考虑到智能体所面临的独特挑战和偏见。

一个有前景的方向是创建专门针对理性评估的基准测试,超越现有的准确性基准测试。需要进行更严格和大规模的研究,以测试智能体系统中理性的不变性和偏好的可排序性原则,这将涉及开发更复杂的扰动方法,以更深层次地探测推理的一致性,并设计出能够产生统计显著结果的实验。

将多模态输入更深入地整合到多智能体系统中,可能会显著提升这些系统处理复杂任务的能力和理性。未来的研究可能会探索如何更有效地利用视觉、声音和结构化数据等多模态输入,以增强多智能体系统的性能。

论文链接:https://arxiv.org/pdf/2406.00252v2

猜你喜欢

转载自blog.csdn.net/weixin_44292902/article/details/143006791