系统 0/1/2/3:多时间尺度具身集体认知系统的四元-过程理论

25年3月来自日本京都大学、立命馆大学、庆应义塾大学、东京大学、大阪大学和欧姆龙公司的论文“System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems”。

本文介绍系统 0/1/2/3 框架,作为二元-过程(dual-process)理论的扩展,采用四元-过程(quad-process)认知模型。在系统 1(快速、直觉思维)和系统 2(慢速、深思熟虑思维)的基础上,结合系统 0(代表前认知的具身过程)和系统 3(包含集体智慧和符号涌现)。其采用多尺度时间理论统一认知的不同时间动态,将该模型置于柏格森(Bergson)哲学的语境中。

系统 0 强调形态计算和被动动态,说明物理具身如何在没有明确神经处理的情况下实现自适应行为。系统 1 和 2 是从建设性的角度解释的,结合神经动力学和人工智能的观点。在系统 3 中,引入集体预测编码来解释社会层面适应和符号涌现如何在延长的时间尺度上运作。这一综合框架涵盖从快速的具身反应到缓慢发展的集体智慧,为跨多个时间尺度、抽象层次和人类智能形式的认知提供统一的视角。系统 0/1/2/3 模型为理解自适应和认知过程之间的相互作用提供理论基础,从而为认知科学、人工智能、机器人技术和集体智慧的研究开辟新途径。

系统0/1/2/3

要理解智能(无论是生物智能还是人工智能),必须考虑认知和适应发生的不同时间尺度。现有的认知模型(如二元-过程理论)通过区分快速直觉思维(系统 1)和慢速深思熟虑推理(系统 2)[69, 7],大大提高了对人类智能的理解。然而,这些模型的范围仍然有限:
• 它们主要关注内部认知过程,忽视与环境的具身和感觉运动交互。
• 它们没有考虑集体智慧,即语言和符号系统在人类社会中动态发展。
• 它们缺乏更广泛的时间层次,无法捕捉认知过程如何在多个时间尺度上展开,从快速的反射反应到社会知识的缓慢演变。

在开发能够更好地适应现实世界的人工智能和机器人时,这些限制变得更加明显。机器人等具身人工智能系统难以适应现实世界的行为,因为它们的认知模型往往无法将快速、反应灵敏的运动控制与缓慢、深思熟虑的规划结合起来。此外,人工智能和机器人在修改用于交流的语言以及促进集体生存所必需的文化和社会形成方面,依然面临挑战。它们的认知模型往往无法管理长期的集体符号动态(即符号的出现),从而阻碍了它们灵活地使语言和符号系统适应环境的能力。

为了应对这些挑战,本文提出系统 0/1/2/3 框架,这是一个四元-过程认知模型,它通过整合前认知具身过程(系统 0)和集体智慧与符号的出现(系统 3)来扩展二元-过程理论。

本文将人类智能视为现实世界中的活系统,生成符号,进行符号交流,并建立社会和文明,在这个世界繁荣发展。如图显示系统 0/1/2/3 的示意图:

请添加图片描述

身体本身的动力学位于系统 1 之下,执行形态计算。设计良好的身体可以实现自适应行为,例如行走,即使没有大脑,被动动态步行者也证明了这一点。系统 0 代表框架中认知的基础层,涵盖在最快(即超快)时间尺度上发生的前认知、具体化过程。系统 0 背后的基本思想,可以从哲学角度上理解为柏格森的运动记忆和管道化概念,强调物理交互如何预先形成自适应反应。该系统的特点是智体的身体与其环境之间的直接物理交互,并且无需显式计算即可运行。系统 0 包括形态计算和被动动力学等现象,例如双足行走的自稳定特性或软机器人手的固有抓握能力。这些过程利用身体的内在物理特性来执行自适应行为和计算,通常比单独的神经控制更有效。通过结合系统 0,该框架承认具身在认知中的关键作用,强调身体的结构和与环境的交互如何有助于智能行为。这种自下而上的认知方法为系统 1、2 和 3 中更高级的过程提供了基础,这些过程通过限制和塑造智体与世界的交互来影响感知、行动甚至抽象推理。

对于系统 1 和 2,遵循传统定义 [69]。结合柏格森的哲学,认知的双重时间结构与柏格森的双重记忆模型非常吻合——利用运动记忆的自动识别和利用纯记忆的注意识别。

社会中符号学(例如基于语言的)互动的动态位于系统 2 之上。人类智力的独特之处在于它的适应性并不局限于个人。人类创造语言、规范和社会制度来适应群体环境。因此,适应和创造过程不是发生在个人的大脑中,而是以分布式方式在社会群体中运作。这对应于符号的出现和文化演变,包括 EmCom 和 EmLang。人类不仅通过构建世界模型和创建内部表征来适应环境,而且还可以创建外部表征,即符号系统(包括语言)。

扫描二维码关注公众号,回复: 17562274 查看本文章

系统 3 代表框架中最高水平的(超)认知处理,包括集体智慧和符号涌现。如果 CPC 假设是正确的,那么作为语言创造者,将作为一个整体系统参与预测编码或自由能量最小化 [136]。

该系统在最长的时间尺度上运行,促进共享符号系统(如语言、文化规范和社会制度)的发展和演变。与系统 1 和 2 以个人为中心的过程不同,系统 3 源自社会背景中多智体之间的相互作用,从而产生超越个人能力的分布式认知现象。系统 3 扩展柏格森关于社会进化和扩展时间性的哲学观点,其中集体符号和文化规范在延长的时间尺度上出现。

系统 3 在人类认知进化和文化发展中发挥着至关重要的作用。它使知识能够跨代积累和传播,形成复杂的社会结构,并形成定义人类社会的协作解决问题的能力。此外,系统 3 提供一种反馈机制,影响系统 1 和 2 的运作,从而通过文化学习和社会规范塑造个人认知。个人和集体认知之间的这种双向影响凸显系统 0/1/2/3 框架的深度互联性,并强调在开发旨在实现真正类人能力的人工智能系统时考虑多尺度认知过程的重要性。

系统 3 和 CPC

系统 3 的核心是集体预测编码 (CPC) 的概念。在这个系统中,个体群体通过预测处理协作构建和完善共享的世界心理模型,并通过社会互动和文化传播不断更新这些模型。这一过程导致符号系统的出现,这些符号系统不仅是群体成员之间沟通和协调的有效手段,而且是模拟世界的外部表征系统。

作为系统 0/1/2/3 观点的基础,引入 CPC 假设。文献 [136] 假设可以通过 CPC 的视角来理解语言的出现。如图显示CPC 的可视化表示。

请添加图片描述

CPC 将预测编码概念 [57] 从个体认知扩展到集体社会系统。该框架允许将包括语言在内的符号系统出现,形式化为分散贝叶斯推理的过程 [47, 143]。本质上,语言被视为句子的分布,它是在给定多智体分布式观察的情况下从潜变量的后验分布中得出的。

系统之间的关系和动态

系统 0/1/2/3 的框架对每一层在认知、表征和时间动态方面的层次和结构进行了区分,这些层次涉及促成智能行为的不同过程层次。每个系统都具有独特的时间尺度、认知过程和交互机制,如表所示。

请添加图片描述

时间尺度和模型:首先,系统在不同的时间尺度上运行,从系统 0 的超快物理和动态过程到系统 3 的超慢涌现符号系统。系统 1 与快速过程相关,包含直觉决策,而系统 2 以较慢的速度运行,在二元-过程理论中被广泛接受 [69]。从最近的人工智能研究的角度来看,系统 1 和 2 分别对应于世界模型和语言模型 [137, 33]。

表征和语言:表征类型表征每个系统层的性质。​​系统 0 自动处理物理信息,而不涉及表征。系统 1 处理隐性表征,例如非语言特征,这与隐性知识的概念一致 [105]。系统 2 采用显性内部表征,对应于显性知识。虽然内部表征并不等同于语言,但它们可以与内部语言相关联,反映显性的内部过程。最后,系统 3 使用外部表征进行操作,对应于交流,例如个体之间的外部语言。

当使用单个神经网络表示系统 1 和 2 时,长期参数变化对应于学习,而短期参数调整与推理相关。相比之下,系统 3 将长期参数变化表示为符号出现,将短期参数变化表示为通信。系统 3 的运行动态比系统 2 慢。多智体系统(MAS) 在推理过程中利用智体之间的通信,这与系统 3 的观点一致,其中通信对应于集体智能中的集体推理过程。

认知过程和意识:每一层都有不同的认知过程和意识水平。系统 0 以条件反射方式运作,没有任何形式的意识,而系统 1 在潜意识层面参与直觉认知过程。系统 2 与有意识的反思有关,而系统 3 涉及超意识的集体认知。认知和语言之间的关系在各个系统中不断发展,突出了它们在意识出现中的作用。系统 0 以反射方式运作,没有意识,而系统 1 在潜意识中参与直觉认知过程。系统 2 代表有意识的熟思。相比之下,系统 3 经历超意识的集体认知。

互动范围:系统 0 涉及物理互动。相比之下,系统 1 和 2 分别对应于个体和个人互动。在这里,个体指的是个体与外部环境之间的基本和直接互动,而个人则涉及更深层次的互动,其特点是内部过程、情感联系和与他人的有意义的关系。系统 3 则对应于由符号介导的社会互动。
这个层次框架,强调了系统之间的相互作用和动态,强调了时间尺度、认知过程和表征机制如何融合,形成认知和交互的综合视角。通过理解这些关系,可以更深入地了解多尺度空间和时间人类智能,即具有符号出现和 CPC 能力的生命系统。

柏格森的哲学为上述四层体系提供一个哲学上的基础框架。这是因为他的时间哲学不仅涵盖了他的第二部主要著作《Matter and Memory》中讨论的有意识认知“快与慢”过程,还涵盖了分别对应于他的第三部和第四部主要著作的进化和社会问题。柏格森的方法,将“landscape”这一扩展的空间概念与“window of the present”结合起来,使其具有弹性,以此来构建和阐明如此广泛现象背后的概念基础。

三个时域尺度轴

柏格森的时间哲学为从物质到社会的各种现象提供了广阔的视角,每个现象都在不同的时域尺度上运作。在区分这些不同的时域尺度时,区分多个轴是有益的,不应将它们混为一谈(如图所示)。

请添加图片描述

第一个轴是指构成单个有机体的多个时域层。它以当前窗口为中心(如前所述,由第 1 层和第 2 层构成),包括下面的物质层(第 0 层)和上面的记忆层(第 3 层)(参见 MTS 结构:上图右)。第二根轴表示形成自适应优化所需的时域尺度(“landscape”形成或“管道化”,参见上图左)。例如,进化涉及的时域尺度从数千年到数百万年不等,而学习涉及的时域尺度从几周到几个月不等。第三根轴表示当前窗口的大小(上图中)。更大的当前窗口可以实时访问第 3 层中更丰富的纯记忆库。严格来说,这不是时域“尺度”的差异,但它是影响高阶涌现属性(例如深思熟虑和语言独创性)的决定性因素。

在现实世界的现象中,这些多个时域尺度轴相互交织并共同体现。以本文提出的系统为例:系统 0 和系统 1 都只利用了“小”的当前窗口,但底层管道化的时域尺度在进化和学习之间有所不同。系统 2 有一个“大”的当前窗口,可以访问记忆,并与学习 landscape 互动。系统 3 有一个“扩展”的当前窗口,此外还与一个集体形成的社会 landscape 互动。

两种记忆类型和当前的宽度

柏格森的时间理论通过两种“记忆”的综合作用来解释自然现象。这种区别通常被视为现代程序记忆和情景记忆概念的前身[145, 106];然而,它的范围更广。一种是“运动记忆”,指的是通过重复学习的一系列运动模式,例如人类的技能和习惯。另一种是“纯记忆”,它保留了原始经验,然后才将它们组织成习惯模式。例如,通过反复尝试骑自行车(r1、r2、r3),获得了骑自行车(R)的运动记忆。然而,人们也可以回忆起 r1 是某一天的特定生活事件。纯记忆就是保留这些独特实例的东西。

至关重要的是,作为对环境的一种适应,“运动记忆”的组织在特定时刻的效用约束下运作,而纯记忆则提供暂时开放的资源——提供了超出这些既定习惯模式的盈余(surplus)。这种盈余允许在以后可能出现的新情况下具有灵活性和适应性。“纯记忆”具有灵活性和时间开放性,在概念上可以与最近机器学习方法中使用的外部记忆系统相关,例如配备外部记忆的神经图灵机和 Transformer 架构。

前面提到的两种识别类型:快速但有限的自动过程和较慢但有意图的过程,后者也称为“注意识别” [9]。自动识别和注意识别都依赖于运动记忆,并具有促进刻板环境中交互的共同功能。然而,自动识别以“小”的当前窗口运行,仅限于即时运动反应。相比之下,注意识别具有“宽”的窗口,可以访问纯记忆。这种时间上的开放,允许主动重建已识别的物体作为心理图像,在某些情况下,甚至可以重新体验个人过去的场景。这种时间上的区别也可能适用于系统 1 和 2。

运动记忆对于简化即时认知和行动至关重要。没有这一点,每次都需要从头开始组装复杂的运动反应,从而无法实现层次化和复杂的动作。然而,如果所有的经验都只用于构建运动记忆而不留下任何盈余,那么在新的情境中就没有额外的资源可以利用。当前窗口的大小限制了这种实时即兴创作。因此,这些双重记忆资源对于智力追求和创造力至关重要。它们通过运动记忆实现准备和支持,同时保留在必要时偏离的自由。

运动记忆的扩展定义:管道化 landscape

“运动记忆”定义为在实际经验之前发生的自组织的“事先优化”(此处的优化不一定以全局最优为目标)。掌握一个动作并学习其模式可以减少类似情况再次出现时的认知和运动控制需求。运动记忆有效地充当优化时间外包的一种形式。这表明运动记忆不仅限于内部机制,例如更新生物体内的运动程序或世界模型。相反,生物体通过标记领土或筑巢等行为,主动改变其环境——在人类中,则通过道路、建筑物和产品设计等人工制品——以创造促进自动反应的条件,而无需有意识的思考。

这一定义侧重于底层的时域结构而非现象学分类,也捕捉到在一个进化尺度上的自适应优化,将其视为一个大规模的自组织 landscape。此类机制导致基于先天行为和形态特征的无意识行为,对应于系统 0(柏格森称之为“本能”)。

柏格森引用黄蜂的例子,黄蜂以精确的顺​​序螫入毛毛虫的九个神经中枢,使其瘫痪但不会杀死它 [10]。这种复杂的动作既不是学习也不是推理的,而是预先配置的。在进化尺度上,这是通过无数的变化和选择实现的。因此,行为优化甚至在生物体诞生之前就已经完成了。

无论是在个体层面还是在进化层面,提前建立稳定的感觉运动通路都消除了对当前窗口的需求。从这个意义上讲,柏格森认为,随着运动记忆的完善,它“超越时间”([9])。为了进一步说明这一点,引入“管道化 landscape”的概念。

柏格森的知觉理论涉及知识外包的理念。在《Matter and Memory》中,他拒绝表征主义和原子联想主义,提出一种生物体潜动作为基础的“直接现实主义”。潜行为诱因在环境中构建的想法,不仅预见冯·于克斯库尔的“环境((Umwelt)”概念 [148],而且与二元-过程中的动力系统观点非常吻合。每个生物体都在自己的动作诱导空间内运作,这个空间超出它的身体,并通过运动记忆过程(包括进化和学习)形成。柏格森将其形成过程比作地质时间尺度上的河流形成,称之为“管道化”[9][10]。根据著名遗传学家 C. H. 沃丁顿通过 A. N. 怀特黑德 [107] 继承的这一思想,将由此产生的空间称为“ landscape ” [149]。

由于这种管道化的 landscape,生物体不需要每次都重新构建行为。相反,它们预先构建一个适当的 landscape,其中适当行动的潜力已经安排好了。管道化塑造了这个潜空间,物理定律、进化适应和学习都对它有所贡献。理想情况下,生物体只需“展开”这个 landscape 就能实现局部优化的行为。

如果一条河流蜿蜒曲折,水就不需要“思考”;通过流向较低潜力,它自然会遵循优化的“山谷”路径。同样,黄蜂的行为不仅来自内部运动控制,还与毛毛虫的体形和结构相结合,使其动作自动展开。在这里,内部和外部的空间区别变得不那么重要。相反,重点是当前窗口之前 landscape 形成(管道化)的时间外包。

管道化的时域尺度(系统 0/1/2/3)

管道化的概念涵盖了从物理定律到语言的各种 landscape,并自然地与本文系统 0、1、2 和 3 的层次结构相一致。物理定律可以看作是管道化 landscape 的一种极端形式。至少在柏格森时代,物理物质不会做出“决定”;它的行为是预先确定的和不可改变的。这构成物理 landscape。其次,在生物进化的时间尺度上,管道化塑造了与各自环境(Umwelt)相对应的物种特定 landscape。由形态特征(系统 0)自动生成的被动行走等运动就位于此处。在个人一生的时间尺度上,学习进一步多样化 landscape。技能的掌握会导致执行动作和操纵概念工具的难易程度不同(系统 1 和 2)。

最后,在通过符号参与社会活动的人类中,管道化也发生在文化进化的时域尺度上。在他的第四部也是最后一部主要著作《The Two Sources of Morality and Religion》中,柏格森提出社会管道化 landscape 的概念。当人们集体行动时,某些行为 landscape 被刻入社会 landscape 中,以解决协调问题,例如社会规范、规则和道德。与进化和个人学习 landscape 类似,社会管道化促进了社区特定的行为组合。如果没有这一层次的管道化,语言的使用就不可能实现(系统 3)。

所有这些层次的 landscape 都具有双重性质:它们通过减少选择来限制可能性,同时也促进和推动刻板行为,减少甚至消除对当前窗口的需求。然而,拥有当前窗口和获取无组织的纯记忆,对于理解生命中固有的创造力具有重要意义。

首先,柏格森反思当前窗口通过进化逐渐获得的历史过程。在较简单的生物体中,反应“几乎不能被延迟”([11])。当生物体能够“推迟其反应的完成日期”([11])时,就会出现遥远的感知。因此,当前窗口的存在和获取纯记忆使得在不可预见的情况下进行非随机的即兴创作成为可能,促进了复杂的适应性行为,而这些行为超出了进化或个体学习本身所能实现的范围。

此外,即时变化可提高学习效率。柏格森指出:“由于这种能力,我们无需等待偶然重复相同的情况,即可将伴随的动作组织成习惯;可利用瞬时的图像构建一个稳定的机制来取代它”([11])。同样,机器学习在补充工作记忆时表现出更高的效率 [38, 146]。

虽然当前窗口丰富对时间的现象学感知,但其生物学尺寸仅限于几秒钟。符号系统的发明可以看作是人为地延长了这个限制,从而产生了“当前的扩展窗口”(EWP)。在后来的一篇论文中,柏格森写道:“当谈论当前时,是在思考一段特定的持续时间。什么持续时间?不可能准确地确定它,因为它是一个相当难以捉摸的东西。此时此刻,现在就是我正在说的句子。但 […] 我的注意可以变长或变短,就像罗盘两点之间的间隔。”([12])

语言以其增强人类感知和记忆的分辨率和可塑性的非凡能力而脱颖而出,使受生物或个人限制的有机体达到了难以想象的复杂程度。正如柏格森在《Creative Evolution》(1907)中所观察到的,人类与社会组织且受本能驱动的膜翅目昆虫不同,已经达到了“无限”的复杂性。当前窗口可以通过各种方式扩展,例如对话、符号笔记、交互记忆以及在熟思和对话过程中吸收他人的认知资源。这种与社会和集体 landscape 的互动,有效地充当了共享的工作记忆,正如 CPC 假设所说明的那样。因此,语言固有的社会性质,深深植根于 landscape 与当前窗口之间的动态相互。