Relational Reinforcement Learning: An Overview

Abstract

关系强化学习（RRL）既是一个年轻的领域，又是一个古老的领域。在本文中，我们追溯了该领域的历史和相关学科，概述了一些当前的工作和有希望的新方向，并调查了未来的研究问题和机会。

Introduction

长期以来，将学习与解决问题相结合一直是人工智能的梦想。尽管这似乎与分而治之的原则背道而驰，但仍有许多充分的理由采用这种综合方法。解决问题通常在计算上很困难，并且如果不学习，agent将无法利用自身的经验来提高将来解决问题的效率。另一方面，孤立学习取决于外部专业知识来决定哪些值得学习并提供训练数据。这样的专业知识并非总是可用，并且在可用时通常很昂贵。因此，诸如LEX（Mitchell等，1983），SOAR（Laird等，1986）和Prodigy（Minton等，1989）之类的系统开创了将问题解决与学习相结合的方法，尽管他们具有完整的知识和正确的领域模型，并在一个完全可观察和确定性的世界中。

基于马尔可夫决策过程理论的强化学习（RL）放宽了其中的一些假设，包括确定性和对领域模型的全面了解（Kaelbling等，1996； Bertsekas＆Tsitsiklis，1997； Sutton＆Barto，1998）。 agent没有被提供完整和正确的领域理论，而是处于一种环境中，可以通过采取行动并接受积极或消极的强化，与agent进行交互以收集领域知识。 agent的主要目标是学习一种基于其当前状态选择其行为的方法，即学习一种将状态映射到行为的策略，从而优化性能指标，例如每个时间步长收到的预期平均奖励。

强化学习为构建智能agent提供了一个通用框架和一系列方法，这些智能agent可以在最少的监督下优化其在随机环境中的行为。但是，不幸的是，目前RL中的大多数工作都是基于命题表示法，这使其很难将其应用于复杂的现实世界任务，例如从Web检索信息，自然语言处理或在诸如现实世界这样丰富的领域中进行规划，如烹饪。命题RL在此类领域中的成功应用通常只有通过对命题特征进行专业的人工构造才能实现。这些领域中的状态和动作更自然地以关系形式表示，并且人们似乎经常在学习和泛化中利用丰富的关系结构。问题自然而然地出现了：这是怎么做的？

在本概述文章中，我们激励RRL尝试回答这个问题，将其置于历史背景下，概述一些有前途的方法和新方向，并讨论该领域中的一些开放研究问题。

Motivation

考虑一个典型的网络问题解答任务（Berners-Lee等，2001； Fensel等，2002），该任务可能涉及访问和集成来自网络的半结构化信息以回答一个复杂的查询，例如“查找西海岸的一所研究生院，这里有经济适用房，多个教职员工，并且资助了人工智能方面的研究。”即使以正式的查询语言提出查询，要回答该问题，也需要一些技能，例如查询计划，优化，信息提取以及以关系语言进行信息集成。或考虑学习烹饪一顿饭涉及什么。虽然当然不是详尽无遗的清单，但需要推理一下人们的口味和喜好，自己对食谱和技能的了解，配料的可用性，使用地点，使用它们的程序，器皿和炊具的容量以及所产生的影响不同成分的比例，烹饪温度以及不同类型的烹饪过程对最终产品的口味和质量的影响。

容易将这两个问题都视为强化学习问题。在这两个任务中，我们可能会因花费的时间和其他费用而对系统进行惩罚，并为最终产品的质量而给予奖励。然而，问题在于，网的结构和烹饪任务中涉及的推理最自然地使用关系表示来表示。这给RL在这些领域的成功提出了若干挑战。

Function Approximation: 当应用于关系域时，通常在RL（例如神经网络或回归树）中使用的值函数近似不能很好地泛化。部分原因是因为这些表示不适合表示关系知识的任务。当它们成功时，他们需要仔细选择专门针对手头特定任务手工设计的命题特征或基本功能。设计在存在时利用关系结构的函数逼近方案是一个严峻的挑战。

Generalization Across Objects: RL方法不能明确表示对象及其之间的关系，因此从一个对象学习到相似的相关对象的能力从根本上受到限制。这里的关键挑战是识别被认为是“相似”的对象的类，在这些类上证明这种泛化是合理的，以及识别和表示适合传递的知识。

Transfer across Tasks: RL程序通常在单个任务上进行测试，并且不会表现出跨任务的知识转移。给定域中的每个任务，例如信息检索中的每个查询，在按命题制定时可能看起来完全不同，因此可能需要单独的训练才能收敛。关系表示便于将相关任务的广泛集合表述为单个域，从而在这些相关任务之间产生自然的泛化。

Run-time Planning and Reasoning: 在大多数强化学习工作中，运行时没有刻意的规划和推理。默许地假定所有规划都是离线进行的，或者系统完全依靠探索和学习来构造好的规划，从而将运行时执行减少为被动行为。但是，复杂的动态域既需要考虑又需要反应，正如成功的游戏程序所证明的那样。似乎值函数的近似性质要求在运行时进行更精细的搜索以补偿其误差。推理在构建新功能以改进值函数近似中也可能很重要。

Prior Knowledge: RL不再强调先验知识在学习和推理中的作用，因此依赖于尝试和错误学习，这是非常低效的，并且通常无法扩展到诸如上述的更复杂的任务。

关系强化学习（RRL）试图通过将RL概括为关系表示的状态和动作来解决所有上述问题。实际上，强化学习和关系学习都有悠久的历史。强化学习的研究始于1959年塞缪尔（Samuel）在跳棋方面的开创性工作（Samuel，1990）。关系学习的工作始于温斯顿关于块世界学习的工作（温斯顿，1975年）。近年来，以不同的名称研究关系学习，包括归纳逻辑规划，关系数据挖掘和概率关系建模。强化学习也以多种方式进行了研究，其中神经动态规划和决策理论规划最为人所知。

也许不太明显，并且正如引言中所提到的，强化学习也与加速学习以及SOAR和Prodigy等系统密切相关。确实，经典的《机器学习阅读》（Shavlik＆Dietterich，1990）将塞缪尔的工作归类于加速学习。这是有道理的，因为在加速学习中，学习任务被视为通过学习适当的控制知识（即，学习在什么时候或某个策略时该做什么）来加速暴力问题解决者。尽管遵循经典计划范式的提速学习工作并未考虑动态域和随机性，但从一开始就采用了关系表示。加速学习与强化学习之间的另一个区别是，在加速学习中，假定给出了领域理论，即动作模型和即时奖励函数，而在RL中，仅提供了仿真模型。

关系强化学习（RRL）将状态和动作的关系表示形式的表现力以及强化学习的动态性和随机性结合在一起，从而为学习创造了一个非常笼统且具有挑战性的环境。

Reinforcement Learning

强化学习（RL）的基础是一种agent，该agent可以使用传感器感知周围世界，并通过效应器对周围世界进行操作，从而与周围环境进行交互。除了传感器和效应器外，agent还获得了增强或奖励。通常，环境可能是随机的，动态的，并且只能部分观察。对于不同的操作定义，agent的目标是以一种行为来优化其预期的长期效用，例如，优化每步的预期平均报酬或优化每一步的几何折扣的预期总报酬（Puterman， 1994）。

鉴于RL的这个宏伟目标，毫不奇怪的是，即使不是全部，大多数AI问题都可以在RL框架中解决。的确，RL可以看作是AI完整问题的集合，或者其解决方案暗示着在该领域的广泛目标上取得成功的问题之一。但是，当前的方法（接下来将简要回顾）并没有处理暗示的环境丰富性问题。 RRL是弥合这一差距的关键步骤，允许RL方法扩展到结构丰富的域中。

强化学习文献提供了解决RL问题的几种方法。 “策略梯度”方法在某种语言的指导下，根据其性能度量相对于其参数的梯度估计来直接搜索参数化的策略空间。这些方法的优点之一是它们在某些条件下也适用于部分可观察的环境。

另一类方法更强烈地依赖于状态的可观察性，并通过学习状态或状态-动作对上的适当参数化的实值函数来间接地学习最佳策略。值函数的参数是局部更新的，将当前状态的值移至下一个状态的值加上任何即时奖励。在实践中难以满足的强大假设下，这些局部更新可以显示为使值函数收敛到从给定状态（在给定操作下，如果有的话）可以实现的真实期望效用，我们称之为最佳值。如果已知最佳值函数，则agent可以通过对它贪婪地行动，在每个状态下选择使结果状态的期望值最大化的动作来最佳地执行。通过刚刚描述的局部更新的某种变体来学习（近似或启发式）正确值函数的方法的集合，统称为值迭代方法。当要更新的值函数将值分配给状态-动作对时，它称为Q函数，该方法也称为Q学习方法。在这两种情况下，在每个状态下局部更新值函数估计的过程都称为值函数回归，因为可以将其视为通过环境的动作动力学一步一步使值函数估计回归。

寻找最佳策略的一种相关方法是策略迭代，它基于一个简单的定理：相对于次优值函数V贪婪地行动，将获得至少与该值函数指示的值一样多的值，并且至少有一个值获得更多的值。换句话说，只要V低估了最优值，相对于V的贪婪策略所获得的价值就大于V。策略迭代以任意的V开始，并针对V的贪婪策略计算改进值函数V’。然后可以将V’作为V重复此过程，直到找到最佳V。实际上，收敛只需要进行几次迭代，但是在大状态空间中，从多项式中找出V的改进V’的过程虽然是多项式的，但却很昂贵。为了解决这个问题，在大的状态空间中，可以通过对在多个给定的样本轨迹上从s获得的效用取平均值，根据V贪婪地进行操作，在任意给定的状态s下对V’进行采样。这个过程被称为政策推出（Bertsekas＆Tsitsiklis，1997）。给定足够的V’这样的样本，机器学习技术可以学习V’的近似值，即状态空间特征的线性组合，从而提供了一种便宜的方式来在大状态空间中近似地进行策略迭代。

Relational Reinforcement Learning: State of the Art

在本节中，我们概述了一些有关关系强化学习的有前途的当前方法。

Relational Regression and Q-learning

通过使用关系回归，RRL系统（D-zeroski等人，2001）允许将几乎标准的Q学习应用于在以关系性质为特征的环境中强化学习问题。

通过将状态和动作的关系表示与关系回归结合使用以进行Q函数泛化，可以使用结构信息，例如在Q值的描述中存在具有正确属性的对象或对象之间的关系。结果导致对派生策略的描述。当遇到更复杂或更简单的任务时，这可以在较小但相关的问题上重用经验。

已经开发了三种用于该RRL系统的回归算法：TG算法（用于逐步构建一阶回归树），基于实例的算法（称为RIB）和基于内核的算法KBR（使用高斯过程作为回归技术）。

TG算法（Driessens等，2001）是构建一阶分类和回归树的Tilde算法（Blockeel和De Raedt，1998）与G算法（Chapman和Kaelbling，1991）的结合。有关树的每个叶子中每个可能扩展的性能的大量统计值，以逐步构建树。 TG算法使用的关系回归树使用一阶文字的结合作为内部叶子中的测试。对应于特定叶子的测试是出现在从树的根到叶子的路径上的测试的结合，在其中对所有出现的变量进行存在量化。 TG算法采用了源自Tilde系统的用户定义的精细运算符，以生成可用于替换叶子的可能的一阶测试。 TG算法算法存储在树的每片叶子中的统计信息包括通过每种可能的测试进行正或负分类的示例数，以及每种情况下Q值和Q值平方的总和。这允许使用F检验来决定选择哪个检验。目前，TG尚未进行任何树重组。该算法做出的所有决定都是最终决定。

基于实例的算法RIB（Driessens和Ramon，2003年）使用k最近邻预测作为回归技术，即，它计算存储在内存中的示例的Q值的加权平均值，其中权重成反比到示例之间的距离。所使用的距离必须能够处理状态和动作的关系表示，并且可以是通用的一阶距离（Sebag，1997； Ramon和Bruynooghe，2001），也可以是特定于应用的距离，通常可以是计算效率更高。由于Q学习生成连续的学习示例流，因此开发了许多示例选择方法以减少内存和计算需求。这些选择标准基于IB2和IB3中使用的选择标准（Aha等，1991），并研究各个示例对整体预测误差的影响。

第三种算法称为KBR（G·artner等，2003a），并使用高斯过程作为回归技术。高斯过程（MacKay，1997）要求在示例描述之间定义正定协方差函数。由于在RRL系统中使用了关系表示，因此必须使用结构化数据的内核来完成此任务。这里可能的候选对象是卷积核（Haussler，1999）或在图上定义的核（Gartner等，2003b）。由于高斯过程是贝叶斯技术，因此KBR算法不仅提供了一个新的未知示例的Q值的基本预测，而且还提供了更多的信息。它还可以指示此估计的预期精度，例如，可以通过Q学习算法将其用于指导探索。

降低Q学习与关系函数抽象的适用性的主要问题之一是Q值本身的性质，即它们隐式编码到下一个奖励的距离和大小。在随机和高度混乱的任务中很难预测这些。在这种情况下，优势学习或策略迭代等其他方法似乎更合适。

Approximate Policy Iteration for RRL

如上所述，可以将近似策略迭代视为从值函数V移至更好的值函数V’，或者从相应的贪婪策略 $\pi$ 移至更好的贪婪策略 $\pi '$ ，然后进行迭代。此处， $\pi$ 关于V贪婪地行动， $\pi '$ 关于V’贪婪地行动。

直到最近，几乎所有近似策略迭代的用法都直接表示值函数，但仅隐式表示相应的策略（作为对直接表示的值函数的贪婪行为）。考虑到广泛的专家-人的特征工程，这种方法对于命题域可以很好地工作（例如，在TD-gammon中（Tesauro，1995）），但是对于高度结构化的关系域却没有成功。由于上述原因，很难为这些高度结构化的域找到良好的近似值函数表示。

一种替代方法是直接表示所涉及的策略，而仅隐式表示值函数。给定策略 $\pi$ 的显式表示形式，隐式表示的值函数是通过从每个状态重复执行 $\pi$ 所获得的值。如上所述，通过在 $\pi$ 下绘制合适的轨迹（从每个可能的替代动作开始），仍然可以使用策略推出来生成 $\pi '$ 的样本（给定 $\pi$ ）。注意，在这种方法中，使用监督分类学习器来学习 $\pi '$ ，而不是之前使用回归学习器来近似V’。

这种替代方法的优点是，与表示和学习准确的价值函数相比，通常更容易表示和学习适用于结构化域的策略。可以使用通用策略语言，这些语言利用数十年来的知识表示工作来对许多有用的策略进行紧凑，易学的描述（Martin＆Geffner，2000； Khardon，1999； Yoon等，2002）。大量的实证研究表明（Fern等人，2003； Fern等人，2004），对于前三届国际会议中使用的基准规划问题衍生出的各种困难的，结构化的领域，几乎不需要人工就可以学习策略。规划比赛。使用这种近似策略迭代形式的学习系统可以学习与这些领域中最新的确定性计划者竞争的策略。但是，与确定性计划器不同，这些系统对于引入不确定性具有鲁棒性，并且可以证明在相同问题的随机变体中表现良好。另外，学习系统一次学习整个计划领域的策略，然后可以通过简单地执行所学习的策略来解决该领域中的任何实例。相反，确定性计划人员对每个问题实例使用新搜索，而在实例之间不传递任何知识。

关于RRL的近似策略迭代方法，还有许多未解决的研究问题。首先，迄今为止探索的策略语言是相当有限的。是否可以找到一种良好的，可学习的，通用的策略语言来避免遇到新领域时需要人工重新设计该语言，还有待确定。特别是，仅开始探索结合内存而不是简单地对当前状态做出反应的策略语言。而且，当前的策略语言缺乏将关于问题域的背景知识并入策略语言或策略学习者的一般能力。最后，尽管有自然的方法，但这些技术尚未扩展到部分可观察的环境或多agent环境中。

Symbolic Dynamic Programming

RRL的诱人方法是利用状态转换模型的符号表示形式来做“贝尔曼备份”的符号版本。这种方法的根源可以追溯到基于解释的学习（EBL），其中，在成功解决问题的环节之后，将建立一个证明其成功背后原因的证据。然后，对证明进行一般化，以构造可以用相同方法求解的状态的描述（Mitchell等，1986； DeJong＆Mooney，1986）。在状态空间问题和MDP中，证明对应于显示动作序列可以实现目标，而EBL对应于在操作符序列上进行目标回归。实际上，EBL是诸如Prodigy和SOAR（Minton等，1989； Laird等，1986）之类的系统中使用的泛化算法的核心，以从解决问题的特定示例中学习一般控制规则。 Dietterich和Flann通过将这些广义状态描述与从Bellman备份获得的值相关联，将该思想与强化学习相结合（Dietterich＆Flann，1997）。因此，人们可以学习对导致最多1步，2步，3步等获胜的状态的描述，并使用它们来选择任何状态下的最佳步法。

Boutilier将所得的基于解释的强化学习（EBRL）推广到了随机域，其奖励模型由结构化的贝叶斯网络描述，因此使它们易于进行符号推理（Boutilier等人，2001）。这两种方法的优点是，不是从动机不明确的句法偏见中归纳概括一组示例，而是从符号域理论开始，证明该归纳是正确的。领域理论易于以紧凑的符号表示形式提供，这是决策理论规划中的标准假设。如果这不是真的，那么首先学习对领域理论的简要描述（Pasula等人，2004），并将其用于目标回归中可能比直接学习价值函数要难得多。这是因为，即使值函数不起作用，领域模型也往往会采用紧凑的表示形式。例如，考虑象棋规则或PDDL中各种计划域的描述。领域模型是紧凑的假设类似于归纳方法中要学习的策略是紧凑的假设。例如，此假设奠定了RRL近似策略迭代中使用的语法偏差的基础。

不幸的是，有时称为这种方法的符号动态编程（SDP）并不是万能药。共享给定值的状态的描述变得越来越复杂和分离，因为这些状态离目标越来越远。每个连接描述所覆盖的状态数量急剧减少，从而导致大量的低覆盖规则。实际上，在早期的EBL系统中已经观察到这种情况，导致了所谓的“效用问题”（Minton，1988； Dietterich＆Flann，1997）。在某个时候，有必要放弃对值函数的精确表示，并对其进行紧凑地逼近，否则人们将花费更多的时间来匹配所有规则，而不是在原始状态空间中寻找解决方案。进行这种近似通常涉及归纳学习，并导致这种方法本质上类似于关系回归。

可以通过状态空间聚合将某些问题抽象为等效的较小问题。以这种方式形成的具有较小等效问题的问题通常会很好地产生SDP。这些问题也可以通过使用模型最小化找到相关的状态空间集合来直接解决（Givan et al。，2003），然后使用任何适用的技术（例如值迭代）解决由此产生的较小问题。

Directly Approximating the Value Function

直到最近，才有任何工作涉及改善我们的价值函数表示的方法，从而使所得的近似值可以利用域的关系结构，而无需对状态空间特征进行大量的人工设计（Guestrin等，2003）。这项工作的新颖之处在于它能够使用一种有效的方法（即线性编程）来直接逼近值函数。

不幸的是，这需要做出几个假设，其中一些假设是非常严格的。最强的假设之一是对象之间的关系属性不会随时间变化。对如此强大的假设的需求突显了直接逼近价值函数的难度。尽管在评估该作品的Freecraft有限子域中看起来并不那么严重，但请注意，在国际竞赛的每个规划基准中，对象之间的关系都会随着时间而变化。

给定此有限的设置，假定全局值函数可将每个对象的加性分解为局部值函数。在对象属于类（可以自动学习）的进一步假设下，还允许局部值函数近似值在类之间变化。结果方法必须为每个对象类找到一个局部值函数。在这里，术语“本地”表示给定对象贡献的值只能取决于该对象的属性（以及可能与该对象直接相关的那些对象）的属性；在所报告的工作中，局部值是局部对象属性的线性组合。然后，找到一个好的价值函数就可以减少寻找要用于每一类对象的线性组合的权重。

给定该值函数近似值，可以将找到合适权重的问题转换为指数级大的线性程序，并使用约束采样技术对其进行近似解决。可以保证选择权重接近最佳值的结果。如果近似值中隐含的关于值函数的假设成立（如果可能确实很大），则可以保证该方法非常接近真值函数。

到目前为止，我们描述的所有RRL方法都利用关系表示将其价值功能或策略推广到共享属性和对象的相似域。在每种情况下，其知识表示中固有的归纳偏差决定了归纳的有效性。这一点最重要的是，戏剧化地表明，知识表示实际上是RRL中的关键问题，因为它决定了要进行的泛化。

Research Issues in RRL

对RRL的研究提供了许多希望，但也带来了许多新的问题和挑战。以下是一些显而易见的紧迫问题。

Theory of RRL: 与命题RL文献不同，RRL理论还不那么成熟，只是在发展中（Boutilier等，2001； Kersting等，2004）。虽然有限MDP的基本结果会延续到具有有限对象的关系域，但这些结果并没有那么有用，因为它们依赖于命题化并且遭受与命题RL相同的不可泛化性的问题。因此，有效函数逼近所基于的理论和实践问题对于RRL而言更为关键。

Hierarchical RRL: 层次结构对于降低决策的复杂性以及允许跨不同任务的转移非常重要。分层RL是命题环境中的活跃研究主题。关系设置允许更丰富的层次结构，其中包括“子任务”以及任务之间的“比特定对象更多”的关系。这些更丰富的层次结构如何帮助学习？如何自动学习这些层次结构？

Model Learning: 强化学习中的问题之一是如何表示和学习动作模型。除了琐碎的领域之外，不可能在所有领域都明确地列出状态。分解模型（例如Dynamic Bayes Networks）可以简洁地表示动作。关系设置需要甚至更丰富的表示，例如，概率关系模型（PRM）或概率STRIPS样式的运算符。我们如何学习这些更丰富的行动模型？我们如何在策略的推理和学习中使用它们？（Pasula et al，2004）报道了有关该主题的早期工作。

Policy Learning: 强化学习的核心辩论之一是策略学习还是价值功能学习更适合特定领域。当前的工作表明，在某些关系领域中，包括在块世界中，可以通过策略学习获得更好的泛化。在什么情况下是这种情况？有可能改善价值函数方法，使其与策略学习竞争吗？或者将价值功能学习整合到可学习的策略语言中，然后在定义策略时可以参考价值，是否更合适？这里的一个相关问题是确定可以支持学习并在广泛领域中代表有用策略的更好/理想的通用策略语言。

Satisficing: 命题强化学习与学习最佳策略有关。不幸的是，在许多关系域中，最优策略是NP难或更差的，而存在有用的多项式时间次优策略。如何在策略的最优性和效率之间做出权衡？以上报告的工作依赖归纳偏见以一种不太了解的方式进行此折衷。

Prior Knowledge: 人类似乎在处理大型领域时会利用（开发）领域知识。缺乏处理先验知识的手段可能是限制RL系统缩放的关键问题。 RL系统易于发现/传达和有效利用哪些先验知识？关系表示法可以使此操作更容易并且以什么成本进行？学习和推理如何有效地互补？

Reasoning after Solution: 迄今为止，最成功的RRL方法使用归纳方法来限制其保证解决方案质量的能力。找到解决方案后，能否以任何易于处理的方式部署推理以验证解决方案的质量和/或确定需要进一步计划的问题区域？

A Summary of the Rest of the Proceedings

论文的其余部分描述了针对上述各种问题的正在进行的研究工作。

Ramon和Driessens探索将示例选择技术添加到Driessens的基于内核的回归算法中，以改善内存和计算要求，但更重要的是，增加计算的数值稳定性。 Walker，Shavlik和Matwin描述了一种构建有用特征的方法，该方法通过随机采样大量相关特征并将其用于正则化内核回归中以预测手工编码策略的价值函数。他们在RoboCup域的Keep-Away子任务中获得了可喜的结果。

Fern，Yoon和Givan的摘要总结了他们在近似策略迭代方面的工作及其在大型相关结构化决策理论计划问题中的应用。 Itoh和Nakamura描述了一种方法，该方法用于学习是否在部分可观察的域中以有限的内存在手动编码的关系策略中使用每个规则。他们在迷宫般的领域中测试他们的算法，其中规划有时是有用的，而问题是要学习何时有用。 Strens的论文描述了一种在部分可观察的，二维，多agent追赶者逃避域中搜索参数化策略空间的方法。他表明，在追求者数量超过2个时，使用关系策略的性能要优于相同策略或联合策略。Croonenborghs，Ramon和Bruynooghe认为建立“影响模型”以从状态特征开始预测回报的方法。这些建立在贝叶斯逻辑程序框架中的模型与Q值结合使用，可以基于多步预见选择动作。

Gretton和Thiebaux描述了一种有趣的方法，该方法将符号动态编程与归纳回归方法相结合，以在同时避开SDP的复杂推理问题的同时获得两者的好处。 Nason和Laird展示了如何通过添加奖励和数字偏好将强化学习整合到SOAR体系结构中。他们讨论了SOAR架构假设对其在关系域中有效学习的能力的影响。 Langley，Arai和Shapiro描述了一种称为ICARUS的认知架构，该架构结合了分层技能和反应性执行，并在有或没有显式动作模型的情况下进行对比学习。 Roncagliolo和Tadepalli描述了一种采用价值函数逼近的关系强化学习的分层方法。

莫拉莱斯提出了一种使用抽象形式的Q学习在抽象状态空间中学习的方法。他还描述了一种从人类专家的痕迹中诱发相关行为的方法。威尔逊（Wilson）的摘要指出了对表达策略语言的需求，并倾向于采用简单的策略。最后，van Otterlo和Kersting指出了关系强化学习的许多挑战。这些包括发展融合理论，了解基于策略的方法与基于价值函数的方法的相对优点，跨多个领域的概括以及利用先验知识。

Conclusions

我们希望我们已经说服了读者，关系强化学习提供了各种挑战和机遇。我们激励了RRL，并概述了许多研究问题和一些有希望的方向。随着人们对AI中的关系表示形式的兴趣日益浓厚，并且对强化学习的问题和前景有了更深入的了解，似乎现在该是一个成熟的时机来研究包括表达表示，推理和动作执行在内的综合框架以尝试解决实际感兴趣的问题。我们邀请读者成为这次冒险的完整参与者。

参考资源

[1] Tadepalli, Prasad, Robert Givan, and Kurt Driessens. “Relational reinforcement learning: An overview.” Proceedings of the ICML-2004 workshop on relational reinforcement learning. 2004. [paper]