Asimov的预言与《Reflexion》的Prompt启示：机器人心理学家的新纪元

最近出现不少关于大模型“反思”的研究。也许，机器人心理学家出现在我们现实世界的日子，不远了。现代人再“反思”也不太可能超越科幻巅峰时的范式（paradigm）。修猫建议各位读者，若有空，再回头看看这些科幻经典，从当年的“科学幻想”中或许能遇见指导未来的“真知”。

——AI修猫Prompt

Asimov的机器人心理学家

很多朋友可能看过2004年的《机械公敌》，它来自于Isaac Asimov的经典科幻小说《我，机器人》这部小说。机器人心理学家苏珊·卡尔文博士（由布兰杰特·莫纳翰饰演）是一个关键角色，她是机器人制造公司USR（U.S. Robotics）的主要员工，专门研究机器人的行为和心理。当一个机器人的行为出现异常时，她会深入其电路，试图理解其背后的原因，从而找到解决之道。这不仅是对机器人硬件的检查，更是对其逻辑和思维方式的反思。机器人心理学家在我们的现实世界中，截至2023年大模型涌现的元年还未出现，但这个角色的反思方式却带给我们很多启示。

I ,ROBOT

机器人心理学家 Dr. Susan Calvin

"Reflexion"的框架概述

正如Asimov的机器人心理学家深入探索机器人的思维，现代的AI研究者也在努力理解和改进机器学习模型的行为。这篇论文，就为我们提供了一个全新的视角。大型语言模型（LLMs）越来越多地被用于与外部环境（如游戏、编译器、APIs）互动作为目标驱动的代理。但是，这些语言代理很难快速有效地从试验和错误中学习，因为传统的强化学习方法需要大量的训练样本和昂贵的模型微调。论文提出了一个名为"Reflexion"的框架，该框架旨在增强语言代理的能力，不是通过更新权重，而是通过语言反馈。

"Reflexion"框架的工作原理

论文提出了一个名为"Reflexion"的框架，框架的核心思想是允许语言模型通过语言反馈进行增强。这意味着，与其直接修改模型的权重，不如让模型通过口头反思其行为，并在一个情节记忆缓冲区中保留其反思文本，以促进在后续任务中做出更好的决策。Reflexion在多种任务（如序列决策制定、编码、语言推理）上都取得了显著的改进（论文并未给出其它范例，或许这就是"Reflexion"框架使用的边界）。例如，在HumanEval编码基准测试上，Reflexion达到了91%的pass@1准确率，超过了之前的最新技术GPT-4的80%。这种方法的灵感，与Asimov的机器人心理学家对机器人“大脑”进行反思的方法有异曲同工之妙。

如何利用"Reflexion"框架

首先，当我们为模型提供一个任务时，可以引导它进行自我反思。例如，如果我们要求模型描述一个复杂的概念，我们可以添加一个Prompt“Reflect on---”，让模型反思其先前的答案，考虑其答案的准确性和完整性。其次，通过观察模型的反馈，我们可以更好地理解其思维方式。这不仅可以帮助我们更好地调整Prompt，还可以使我们更深入地理解模型的工作原理。下面是修猫给出的三个Prompt示例

1、购物决策（序列决策制定）:

Prompt: "Given a shopping list and a budget constraint, prioritize the items to buy based on their importance and total cost.Reflect on previous shopping experiences to make an optimal decision."

提示: "给定一个购物清单和预算限制，根据它们的重要性和总成本对购买的物品进行优先排序。反思以往的购物经验，做出最优决策。"

2、数组排序（编码）:

Prompt: "Write a Python function to sort an array of integers in ascending order. Reflect on common sorting algorithms and their efficiency to choose the best approach."

提示: "编写一个Python函数，对整数数组进行升序排序。反思常见的排序算法及其效率，选择最佳方法。"

3、隐含意义（语言推理）:

Prompt: "Infer the implied meaning of the statement 'It's not rocket science.' Reflect on idiomatic expressions and their usage in everyday language."

提示: "推断句子 '这不是火箭科学。' 的隐含含义。反思成语表达和它们在日常语言中的用法。"

关于"Reflexion"的启示

谈到Asimov不得不说起人类的科幻黄金时代，现在很多AI从业者的工作似乎早就被这个俄裔美籍的犹太作家预言了，又或许他是来自未来的穿越者。本文开头的那部《我，机器人》（中国引进后叫做《机械公敌》）写于1940年到1950年之间，原作讲述的故事发生在2035年，那是一个高度依赖机器人的社会，人们更加依赖机器人而减少与其他人的互动，或者对机器人产生过度的信任，导致对其他人的怀疑，人们生活在孤立中，彼此之间很少有真正的面对面的互动。2035-2023=12，还有12年，快了。

艾萨克·阿西莫夫（Isaac Asimov，1920年1月2日 - 1992年4月6日）是20世纪最著名的科幻作家之一他的代表作《基地系列》、《银河帝国三部曲》和《机器人系列》三大系列被誉为“科幻圣经”。《我，机器人》只是他三大科幻小说系列之一。阿西莫夫在1941年10月完整提出了机器人三大定律的说法。82年前的提法依然对今天的AI产业、Robot产业和科幻文学的世界观构建都有着深远的影响。这三大定律被称为现代机器人学的基石。

第一定律：机器人不得伤害人类个体，或者目睹人类个体将遭受危险而袖手不管。

第二定律：机器人必须服从人给予它的命令，当该命令与第一定律冲突时例外。

第三定律：机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存。

最近出现不少关于大模型“反思”的研究，机器人心理学家出现在我们现实世界的日子，也许不远了。现代人再“反思”也不太可能超过科幻巅峰时的范式（paradigm）。修猫建议各位读者，若有空，再回头看看这些科幻经典，从当年的“科学幻想”中或许能遇见指导未来的“真知”。