马尔可夫过程的最优停止:Hilbert空间理论,近似算法及其在高维金融衍生产品定价中的应用

Optimal Stopping of Markov Processes: Hilbert Space Theory, Approximation Algorithms, and an Application to Pricing High-Dimensional Financial Derivatives

John N. Tsitsiklis, and Benjamin Van Roy

IEEE TRANSACTIONS ON AUTOMATIC CONTROL, VOL. 44, NO. 10, OCTOBER 1999
 

简介:本文给出了一个马尔科夫最优停止问题的benchmark,并使用核函数近似强化学习求解。第二节定义了马尔科夫最优停止问题;算法在第三节,因为教材里面这种算法已经讲得很系统了,没有细看,这里也省略了。我着重读了第四节,是benchmark的定义和求解。

论文原文:https://download.csdn.net/download/qq_29675093/10903825

摘要 - 作者开发了一种理论,表征具有折扣奖励的离散时间遍历马尔可夫过程的最优停止时间。该理论与先前的工作不同,它将每阶段和终态奖励函数视为某个希尔伯特空间的元素。除了简化分析确定Bellman方程解的存在性和唯一性之外,这种方法为近似解的研究提供了一个优雅的框架。特别地,作者提出了一种随机近似算法,该算法调整基函数的线性组合的权重以便近似值函数。他们证明了这种算法收敛(几乎可靠地)并且收敛极限具有一些理想的性质。近似方法的效用通过计算案例研究来说明,该案例研究涉及依赖于路径的金融衍生证券的定价,其导致具有100维状态空间的最佳停止问题。

索引术语 - 复杂系统,维数灾难,动态规划,函数逼近,最优停止,随机逼近。

一 引言

最佳停止的问题是确定终止过程的适当时间以最大化预期奖励。例子包括顺序分析,购买或出售资产的时间以及金融衍生品的分析。在本文中,我们介绍了一类最优停止问题,提供了最佳停止时间的表征,并开发了一种计算方法,用于近似解决经典方法难以解决的问题的解决方案。为了说明该方法,我们提出了一个涉及(虚构的)高维金融衍生工具定价的计算案例研究。

Shiryaev [16]对最佳停止问题提供了相当全面的处理。在一系列越来越普遍的假设中,他描述了最佳停止时间和最佳奖励。我们考虑相对于Shiryaev分析所捕获的一类相当严格的问题,但我们采用了一种新的分析线,可以简单地表征最佳停止时间,最重要的是,近似算法的发展。此外,这种分析线可以应用于其他类别的最佳停止问题,尽管其广度的全部范围尚不清楚。

除了提供解决大规模最优停止问题的方法之外,我们开发的近似算法在随机控制的更广泛的背景下起着重要作用。特别是,该算法举例说明了由Barto,Sutton [17]和Watkins [22]开创的神经动态规划领域的基于仿真的优化技术,这些技术已成功应用于各种大规模随机控制问题;见Bertsekas和Tsitsiklis [6]。现有理论并没有完全解释这些算法的实际成功,我们的分析代表了改进理解的进展。特别地,我们证明了第一个收敛结果涉及使用时间差分学习的变量[17]来调整一般基函数的权重,以便近​​似解决控制问题。

第二节定义了我们考虑的问题类别(涉及具有折扣奖励的遍历马尔可夫过程),并开发了一些关于最佳停止时间和这些问题的最佳奖励的基本理论。第三节介绍和分析了近似算法。第四节描述了涉及金融衍生工具定价的计算案例研究。最后,本文中的观点与神经动态规划和强化学习文献之间的扩展和联系将在结尾部分进行讨论。对于有限状态空间的情况,本文的一些结果的初步版本已在[20]中提出,并且也包含在[6]中。

IV 定价金融衍生品
在本节中,我们通过描述一个简单的案例研究来说明应用我们的算法所需的步骤。该问题代表了快速增长的结构性产品(a.k.a.ªexoticsº)产业中出现的高维衍生品定价问题[14]。我们涉及近似值函数的方法在思想上类似于Barraquand和Martineau早期的实验工作[2]。然而,该研究中使用的算法与我们的算法不同,近似值由分段常数函数组成。

近似解释衍生品定价中出现的最优停止问题的另一种值得注意的方法是Broadie和Glasserman的随机网格方法[8],[9]。这些方法可以被认为是Rust算法的变体[15],它与传统的网格技术一样,近似于状态空间上网格中点的值。然而,Rust的方法的创新之处在于网格包括易处理的随机采样状态集合,而不是标准状态空间离散化中出现的难以处理的网格。不幸的是,当状态空间是高维的时,除了满足[15]中提出的限制性假设的情况之外,随机采样状态通常不能充分代表有效值函数近似。

我们将首先提供有关衍生品定价的标准材料的一些背景和参考。然后,第IV-B节介绍了我们考虑的特定安全性以及相关的最佳停止问题。第IV-C节介绍了一些简单的停止策略的性能。最后,在第IV-D节中讨论了由我们的近似算法生成的基函数和计算结果的选择。

A.背景

金融衍生证券(或简称衍生品)是承诺支付的合约,这些支付取决于股票,债券和商品等基本资产的未来价格。某些类型的衍生品,如卖出和看涨期权,受到大众需求的欢迎,并与大型交易所的股票交易。其他更具异国情调的衍生品由银行和其他金融中介机构量身定制,以满足各种机构的特殊需求,并在市场上销售。

如果存在付款的固定日期并且采用某些常见的股票价格变动和交易简化模型,则可以设计出一种完美复制衍生证券收益的对冲策略。因此,运营这种对冲策略所需的初始投资必须等于证券的价值。 Black和Scholes [7]和Merton [13]介绍的这种复制和估价方法由Harrison和Kreps [10]以及Harrison和Pliska [11]以其最终形式提出,已得到广泛应用,且后来的研究很多。

如果有可能提前行使(即合同持有人可以随时决定终止合同并根据现行市场条件接收付款),衍生证券的价值取决于客户如何选择行使时间。鉴于银行无法控制客户的行为,它必须通过假设客户将采用最大化安全价值的行使策略来做好最坏的准备。在此上下文中对衍生证券进行定价通常需要解决最佳停止问题。

在接下来的几节中,我们提出了一个导致高维最优停止问题的虚构导数安全性,并且我们采用我们开发的算法来估算其价格。我们的重点是演示算法的使用,而不是解决现实世界的问题。因此,我们使用非常简单的模型并忽略可能需要的细节以使问题切合实际。

B.问题制定

我们将考虑的金融衍生工具产生的收益取决于单一的股票的价格。在任何一天结束时,持有人可以选择行使。在行使时,合同终止,并且收到的支付金额等于股票的当前价格除以100天之前的价格。

我们将采用标准的连续时间经济模型,包括随机股票价格过程和短期债券产生的确定性回报。鉴于这种模式,在某些技术条件下,可以通过重新平衡股票和债券组合来复制与股票价格过程相关的衍生证券。该投资组合仅需要初始投资,之后自筹资金。因此,为了排除套利,衍生证券的价格必须等于这种投资组合所要求的初始投资。由于我们的目的是展示我们的算法的使用,而不是详细说明正式将定价降低到最佳停止问题所需的步骤,我们将简单介绍潜在的经济模型及其导致的最佳停止问题,省略正式连接两者所需的技术性。
我们将时间建模为连续变量t\in [-100,+\infty),并假设衍生证券在时间t=0发布。每个单位时间都被视为一天,并且在时刻t\in \{0,1,2,\ldots\} 可以行使证券。 我们将股票价格过程\{p_t|t\geq -100\}建模为几何布朗运动

其中p_{-100}\mu\sigma是正标量,\omega _t是标准的布朗运动。 证券持有人收到的收益等于p_\tau /p_{\tau-100}\tau是行使时间。 请注意,我们考虑负时间,因为在发行日期之前最多100天的股票价格可能会影响证券的收益。 我们假设持续复合的短期利率\rho不变。 换句话说,在时间0投资于货币市场的D_0 美元在时刻 t 增长到值

D_t=D_0e^{\rho t}

我们现在将以导致相关最优停止问题的方式表征衍生证券的价格。让\{p_t|t\geq -100\}成为随演变的随机过程。

使用定义一个离散时间过程\{x_t|t=0,1,2,\ldots\},在中取值。

衍生证券的价值由下式给出

如果\tau^*是最佳停止时间,我们有

在几乎每一个x_0。因此,给定最佳停止时间,我们可以通过使用蒙特卡罗模拟评估期望来定价证券。但是,由于状态空间太大,我们不太可能计算出最佳停止时间。相反,我们必须采用生成次优停止时间 \widetilde{\tau} 并将计算为证券价格的近似值。请注意,此近似值是真实价格的下限。近似通常随着最佳停止策略的改进而改善。在接下来的两节中,我们将介绍计算结果,包括选择此问题的停止时间并评价其性能。在我们将考虑的特定示例中,我们使用设置\sigma=0.02\rho=0.0004(漂移\mu的值是无关紧要的)。直观地说,这些选择对应于每日波动率为2%且年利率约为10%的股票(假设只有在市场开放时利息才会复合)。

C.阈值策略

为了提供一个基线,我们可以比较我们的近似算法的性能,让我们首先讨论一个简单的启发式停止策略的性能。特别是,考虑标量阈值B\in \mathcal{R}的停止时间\tau_B = \textup{min}\{t|G(x_t)\geq B\}。我们根据预期的奖励\mathbf{E}[J^{\tau_B}(x_0)]来定义这种停止时间的表现。在我们的定价问题的背景下,此数量代表衍生证券的平均价格(平均可能的初始状态)。由各种阈值产生的预期奖励如图1所示。超过阈值的最佳预期奖励为1.238。

图1.作为阈值函数的预期奖励。 绘制的值是通过平均在10 000个模拟轨迹上获得的奖励而产生的估计,每个模拟轨迹根据稳态分布初始化并且根据阈值策略指示的停止时间终止。 虚线表示通过估计每个样本均值的标准偏差生成的置信界限,并且将该估计值的两倍与样本均值相加/相减。

很明显,阈值策略不是最优的。例如,如果我们知道过去100天内\{\widetilde{p_t}\}过程中出现了大幅下滑和复苏,我们应该等到我们距离低点大约100天才能获得潜在收益。但是,阈值策略完全依赖于 \widetilde{p_t} 和\widetilde{p}_{t-100}之间的比率,无法利用这些信息。

尚不清楚的是,阈值策略可以在多大程度上得到改进。特别是,似乎这种策略使得决策显着不足的事件很少发生,因此,出于实际目的,将注意力限制在阈值策略上可能就足够了。在下一节中,我们通过使用我们的近似方法产生一个非常优越的停止时间来反驳这个假设。

D.使用近似算法

在应用我们的近似算法之前,最重要的步骤可能是选择一组适当的基函数。虽然分析有时可以提供帮助,但这项任务在很大程度上是一种艺术形式,基函数选择的过程通常需要重复的试验和错误。

我们很幸运,因为我们对手头问题的首选基础函数相对于阈值策略提供了有希望的结果。为了生成一些观点,并描述基础函数,我们将提供有关我们(启发式)选择它们的基本原理的简短讨论。前两个基函数只是一个常数函数\phi _1(x)=1和奖励函数\phi_2(x)=G(x)。接下来,我们认为了解在过去100天内最大和最小回报,以及它们发生多久之前,可能很重要,我们构建了以下四个基函数:

注意,基函数涉及恒定的缩放因子和/或偏移。这些转换的目的是将基函数值的范围保持在相同的范围内。虽然这对于我们的算法的收敛不是必需的,但它可以显着加速该过程。

如前所述,如果我们在时间t=100投资1美元并且股票价格跟随\{\widetilde{p_t}\}过程,则序列x_t(1),\ldots ,x_t(100)表示在接下来的100天期间投资的每日价值。推测这100天样本路径的一般形状很重要,我们生成了四个基函数,旨在总结其特征。这些基函数表示样本路径的内积,其Legendre多项式为1到4度。特别是,令j=i/50-1,我们定义

到目前为止,我们已经根据可能与有效决策相关的状态特征构建了基函数。 由于我们对值函数的近似将由基函数的加权和组成,因此这些特征与近似值之间的关系的性质被限制为线性。 为了捕获特征之间更复杂的权衡,考虑某些基函数的非线性组合是有用的。 对于我们的问题,我们使用原始特征的产品构建了六个额外的基函数。 这些基函数由下式给出

使用我们的16个基函数,我们通过将r_0 的每个分量初始化为零并且以步长\gamma_t=0.001来迭代更新方程1 000 000次来生成参数序列r_0,r_1,\ldots,r_{10^6}。 迭代的演变如图2所示。

图 2.算法执行过程中权重的演变。 由此产生的策略下的证券价值是1.282。

由我们的数值程序得到的权重向量r_{10^6}用于产生停止时间\tilde \tau = \min \{ t|G({x_t}) \ge (\Phi {r_{{{10}^6}}})({x_t})\}。通过对根据稳态分布初始化并且根据停止时间终止的10 000个轨迹的结果求平均而估计的相应预期奖励\tilde{\tau}是1.282(该样本平均值的估计标准偏差是0.0022)。该值显著大于前一部分的优化阈值策略生成的预期奖励。特别是,我们有


作为部分说明,我们提到每个停止时间对应于证券持有人可能遵循的行使策略,表示该行使策略下的证券价值。因此,之间的差异意味着,平均而言(相对于x_t的稳态分布),根据\tilde{\tau}而不是\tau_B行使时,证券的合理价格会高出约4%。如果银行认为\tau_B是最优的并且收取的价格,则可以获得套利机会。

猜你喜欢

转载自blog.csdn.net/qq_29675093/article/details/86082159