[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制

[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制

摘要

本文研究了在水平面内运动的全驱动自主水下机器人的轨迹跟踪问题。在我们的控制设计中考虑了外部干扰、控制输入非线性和模型不确定性。基于离散时间域的动力学模型,两个神经网络(包括一个临界神经网络和一个作用神经网络)被集成到我们的自适应控制设计中。引入临界神经网络来评价设计的控制器在当前时间步长内的长期性能,并利用作用神经网络来补偿未知动态。为了消除水下机器人控制输入的非线性,自适应控制中还设计了补偿项。通过严格的理论分析,证明了该控制律的稳定性和性能。此外,通过大量的数值仿真结果验证了该控制方法的鲁棒性和有效性。

索引术语——自适应控制、自主水下航行器、神经网络、轨迹跟踪。

介绍

目前,水下机器人,包括自主水下机器人(AUV)、遥控潜水器(ROV)和水下滑翔机,已经广泛应用于各种水下任务[1]–[5]。AUV也参与了对海洋、海底和湖泊的科学研究。水下机器人执行水下任务时,精确的运动控制至关重要。然而,这是一个挑战,因为模型的非线性,耦合,时变的水动力系数的动力学,这需要进一步研究。

水下机器人通常以6个自由度在三维空间中运动,其平面运动和潜水运动之间存在耦合动力学。在大多数研究中,水下机器人模型总是解耦的,使得各种控制方法的应用成为可能。已经提出了几种用于在三维空间中跟踪水下机器人轨迹的方法,特别是用于规划运动或潜水。非线性水下机器人模型通常先线性化,然后基于该线性模型设计控制器[8]、[9]。在解耦模型的基础上,文[6]对水下机器人的潜水控制进行了分析,并采用微分器来提高噪声衰减性能,从而实现自抗扰控制。通过解耦深度和航向运动,在[10]中设计了模糊深度局部放电控制器。此外,在文献[8]中,通过将路径跟踪误差转化为Serret-Frenet框架,并对误差动力学进行线性化,提出了一种在垂直面内运动的水下机器人的输出反馈控制。对于水下机器人的平面运动控制,文献[7]提出了一种全驱动和欠驱动构型的非线性控制。他们详细分析了水下机器人侧滑角的有效性。此外,在文献[3]中提出了一种倾斜推力器结构,并为两个解耦的三自由度子系统分别设计了选择性切换控制。在[11]中,同时考虑了电流感应船舶模型和一般车辆模型,其中前者模型考虑了主要的电流载荷。然后利用级联系统理论和观测器反推设计了水下机器人的非线性卢恩伯格观测器和控制器。此外,这些结果表明,基于模型的控制器性能优于传统的局部放电控制。在这种情况下,控制器中的模型动态应在出现偏差时进行修正。

文献[12]-[14]还基于水下机器人动力学模型研究了最优控制。在文献[12]中,设计了一种最优控制来控制水下机器人在运动学层面上的轨迹,并将代价函数描述为动能代价。然后根据最大值原理设计合适的哈密顿量,最终得到最优解。针对非仿人水下机器人模型,提出了一种非线性次优控制方法,并将状态相关的黎卡提方程控制器应用于NPS II水下机器人的点对点跟踪[13]。将不确定性边界作为代价函数中的一项,通过对原鲁棒控制问题的转化,得到一个最优控制问题;然后,提出了间接鲁棒深度控制[14]。

水下机器人的水动力参数通常是通过计算流体力学方法或拖曳实验辨识获得的。然而,由于水下任务期间发生的时变环境和状态变化,获得的水动力参数不是不变的[15]。因此,在设计合适的控制器时,应考虑外部干扰和模型参数的不确定性[16]–[ 23]。为了解决模型参数的不确定性,在[24]中采用了基于Mamdani模糊规则的PID参数调整,然后将控制设计解耦为航向和深度两个通道。文献[25]提出了一种离散时滞控制方法,该方法直接估计水下机器人的动力学,并通过时滞估计来补偿模型的不确定性。

水下机器人的速度可以通过多普勒速度记录(DVL)来测量,通常新数据的更新速度很慢。为了增强使用DVL的水下机器人的未建模动态和外部干扰的鲁棒性,在[26]中引入了积分滑模控制。文献[27]给出了一种补偿有界外部干扰和模型不确定性的新方法,给出了误差符号控制结构的积分,并通过李亚普诺夫稳定性分析建立了半全局渐近跟踪性能。文献[28]将滑模控制和反推相结合,设计了一种具有参数不确定性和外部干扰的水下机器人轨迹跟踪控制器。

为了解决外部干扰,在[2]中引入了干扰力测量方法来测量作用在水下机器人上的力/力矩;然后,基于动态模型的预测响应,在车辆中采用前馈控制。干扰观测器是另一种主要方法,用于补偿未知的外部干扰[11],[20],[29]–[ 32]。文献[20]利用非线性观测器估计了水下机器人的低频运动和波频运动,并针对浅水波干扰下的水下机器人运动设计了非线性跟踪控制。为了控制临近空间中的车辆,在[32]中应用了一种基于干扰观测器的滑模跟踪控制。此外,在[33]中设计了采用扰动观测器的全驱动水面舰艇的自适应跟踪控制。

由于神经网络的函数逼近能力,模糊逼近器、神经网络和基于模糊控制的算法已被广泛研究,以补偿环境干扰和水下机器人的模型不确定性[34]–[41]。在[35]中,神经网络近似被用来补偿未知的模型参数和由洋流和海浪引起的外部干扰,并且实现了跟踪误差的一致最终有界性。神经网络用于解决水下机器人的模型不确定性,动态表面控制也应用于[36]中的控制设计。在[38]中,水下机器人动力学的非线性不确定性由两层神经网络近似。为了控制水下机器人的潜水,文献[42]提出了一种基于稳定神经网络的自适应控制方法。文献[43]针对多艘无人水面舰艇提出了神经网络自适应控制,由一个局部观测器估计不可测状态。在文献[44]中,提出了一种径向基函数神经网络来导出受外部干扰和未知滞后影响的系统的自适应控制器。在最近的工作[45]中,考虑了受输入死区影响的非仿纯反馈离散时间非线性系统。为了补偿死区,通过对原系统进行变换,构造了自适应补偿项和n步超前预测器。

水下机器人的实际控制系统通常是通过采样器以数字方式在嵌入式计算机上实现的。因此,连续时间控制器需要转换成离散时间版本[46]。通过直接使用离散时间模型,我们在存在外部干扰、模型参数不确定性和控制输入非线性的情况下开发了轨迹跟踪控制。应该注意的是,已经有许多方法可以解决输入非线性问题,例如输入死区和饱和[47]–[52]。基于反步法和李雅普诺夫分析,设计了一种自适应轨迹跟踪控制器,以克服[51]中的模型参数不确定性,其中利用饱和函数来解决执行器饱和问题。为了防止违反速度约束,在[48]中为水下机器人提出了一种鲁棒自适应控制器,并且在李雅普诺夫综合中使用了障碍李雅普诺夫函数。在[52]中,针对具有未知输入死区的纯反馈系统,提出了一种新的动态面控制方法。由于使用了差示扫描量热法,复杂性明显降低。针对多输入多输出非线性系统,考虑未知死区和控制方向,提出了一种新的基于神经网络的自适应控制方法。此外,强化学习已经在许多领域得到了研究和应用,如机器学习和人工智能[53]–[55]。强化学习在[53]中首次从计算机科学的角度进行了调查。在[54]中,一支足球队的“守门员”被训练学习何时持球或传球。此外,在[55]中,深度Q学习被提出来用连续控制空间成功地解决20多个模拟任务。在本文中,受[45]、[56]和[57]工作的启发,我们提出了一种强化学习技术,通过使用两个神经网络来实现水下机器人的最优轨迹跟踪。未知的非线性和干扰由神经网络近似;同时,跟踪性能的跟踪评价用临界神经网络来近似。此外,还考虑了控制输入非线性的自适应补偿。本文的初步结果已在[58]中给出,并通过不仅考虑致动器死区和饱和,而且考虑名义力/力矩和实际力/力矩之间的非线性关系进行了扩展。更多的,一种非线性的补偿策略被提出,会在之后讲到。
在这里插入图片描述
本文的其余部分组织如下。我们在第二节介绍了水下机器人的非线性模型。第三节设计了自适应神经网络。第四节和第五节分别介绍了模拟研究和结论

方程

运动方程

如第一节所述,水下机器人通常在具有6个自由度的三维空间中运动,导致其规划和潜水运动中的耦合动力学。为了便于控制设计,模型通常是解耦的,而设计的控制将使用耦合的非线性动力学来验证。我们考虑具有3个自由度的水下机器人的平面运动,如图1所示。让我们将水下机器人的位置坐标表示为(x,y),在惯性坐标系中偏航表示为(ψ),在水下机器人本体坐标中,速度表示为浪涌中的(u),摇摆中的v和偏航中的r。此外,让我们将水下机器人的惯性矩阵表示为M,将科里奥利加速度和向心加速度以及阻尼矩阵分别表示为C(ν)和D(ν)。另外,我们把重力和浮力产生的力和力矩表示为g(η)。考虑未知外部干扰和模型参数不确定性的存在;然后,水下机器人动力学可以给出如下:
在这里插入图片描述

本节略

(本文的控制设计主要针对三自由度模型。基于本文所采用的全驱动模型,我们可以方便地将控制策略扩展到6自由度)

结论

本文在离散时间域提出了一种基于神经网络逼近的全驱动水下机器人自适应轨迹跟踪控制律。基于神经网络的强化学习算法已被用于解决未知干扰,参数不确定性和控制输入非线性。该控制器嵌入了两个神经网络:第一个关键神经网络用于评估控制器在当前时间步长内的长期性能,第二个动作神经网络用于补偿未知动态。通过严格的理论分析和大量的仿真研究,证明了该方法的鲁棒性和有效性。未来的研究方向是将所提出的控制应用于实际系统。

论文链接

猜你喜欢

转载自blog.csdn.net/wangyifan123456zz/article/details/109231360