代码天地

MATLAB强化学习工具箱（十四）导入策略和值函数表示

导入策略和值函数表示导入策略和值函数表示导入行动者和评论者在图像观察中的应用导入策略和值函数表示要创建用于强化学习的函数逼近器，您可以使用Deep Learning Toolbox™网络导入功能导入预训练的深度神经网络或深度神经网络层架构。您可以导入：开放式神经网络交换（ONNX™）模型，需要用于ONNX模型格式的深度学习工具箱转换器支持包软件。有关更多信息，请importONNXLayers。TensorFlow™-Keras网络，需要用于TensorFlow-Keras模型的深度学习工具箱导

分类: 其他发布时间: 03-22 10:44 阅读次数: 0

MATLAB强化学习实战(二) 使用并行计算训练倒立摆系统

使用并行计算训练倒立摆系统行动者的并行训练创建Cart-Pole MATLAB环境接口创建AC智能体并行训练选项训练智能体AC智能体仿真参考文献此示例显示了如何通过使用异步并行训练来训练actor-critic（AC）智能体以平衡在MATLAB®中建模的小车系统。有关显示如何在不使用并行训练的情况下训练智能体的示例，请参阅训练AC智能体以平衡倒立摆系统。行动者的并行训练当您将并行计算与AC智能体一起使用时，每个工作人员都将从其智能体副本和环境中产生经验。每隔N个步骤，工作人员就会根据经验计算梯度

分类: 其他发布时间: 03-22 10:44 阅读次数: 0

MATLAB强化学习实战(三) 使用并行计算训练DQN智能体进行车道保持辅助(LKA)

使用并行计算训练DQN智能体进行车道保持辅助[LKA]DQN并行训练概述Ego Car 的 Simulink 模型创建环境接口创建DQN智能体训练选项并行计算选项训练智能体DQN智能体仿真此示例显示了如何使用并行训练在Simulink®中训练深度Q学习网络（DQN）智能体以保持车道辅助（LKA）。有关显示如何在不使用并行训练的情况下训练智能体的示例，请参阅 Train DQN Agent for Lane Keeping Assist。DQN并行训练概述在DQN智能体中，每个工作人员都从其智能体副本

分类: 其他发布时间: 03-22 10:43 阅读次数: 0

MATLAB强化学习实战(四) 训练DDPG智能体控制双积分器系统

训练DDPG智能体控制双积分器系统双积分器的MATLAB环境创建环境接口创建DDPG智能体训练智能体DDPG智能体仿真该示例说明了如何训练深度确定性策略梯度（DDPG）智能体来控制以MATLAB®为模型的二阶动态系统。有关DDPG智能体的详细信息，请参阅深度确定性策略梯度智能体。有关显示如何在Simulink®中训练DDPG智能体的示例，请参阅训练DDPG智能体平衡摆。双积分器的MATLAB环境此示例的强化学习环境是具有增益的二阶双积分器系统。训练目标是通过施加力输入来控制介质在二阶系统中的位置

分类: 其他发布时间: 03-22 10:43 阅读次数: 0

MATLAB强化学习实战(五) 通过图像观测训练DDPG智能体控制平衡摆

通过图像观测训练DDPG智能体控制平衡摆简单摆锤模型创建环境接口创建DDPG智能体训练智能体DDPG智能体仿真本示例说明了如何训练深度确定性策略梯度（DDPG）智能体，通过MATLAB®建模的图像观察来控制平衡摆锤。有关DDPG智能体的详细信息，请参阅深度确定性策略梯度智能体。简单摆锤模型此示例的强化学习环境是一个简单的无摩擦摆，其最初悬挂在向下的位置。训练的目标是使摆锤直立，而花费最少的控制力。对于这种环境：平衡摆向上位置为0弧度，向下悬挂位置为pi弧度。agent到环境的扭矩动作信号

分类: 其他发布时间: 03-22 10:43 阅读次数: 0

MATLAB强化学习实战(六) 使用Deep Network Designer创建智能体并使用图像观察进行训练

使用Deep Network Designer创建智能体并使用图像观察进行训练有图像的摆锤环境创建环境接口使用深度网络设计器构建critic网络创建图像观测路径创建全输入路径和输出路径从Deep Network Designer导出网络训练智能体智能体仿真本示例说明了如何创建深度Q学习网络（DQN）智能体，该智能体可以平衡在MATLAB®中建模的钟摆。在此示例中，您将使用Deep Network Designer创建DQN智能体。有关DQN智能体的更多信息，请参阅 Deep Q-Network Age

分类: 其他发布时间: 03-22 10:43 阅读次数: 0

RabbitMQ：address (cannot connect to host/port)问题解决

RabbitMQ address (cannot connect to host/port)

分类: 企业开发发布时间: 03-22 10:43 阅读次数: 0

Safari 浏览器中自动填充用户名和密码功能介绍

Safari 浏览器中自动填充用户名和密码功能介绍

分类: 其他发布时间: 03-22 10:43 阅读次数: 0

MATLAB强化学习实战(七) 在Simulink中训练DDPG控制倒立摆系统

在Simulink中训练DDPG控制倒立摆系统倒立摆的Simscape模型创建环境接口创建DDPG智能体训练智能体DDPG智能体仿真此示例显示了如何训练深度确定性策略梯度（DDPG）智能体去控制以Simscape™Multibody™建模的倒立摆系统。倒立摆的Simscape模型此示例的强化学习环境是一根杆，该杆连接到手推车上未操纵的关节上，该关节沿着无摩擦的轨道移动。训练的目标是使杆立起，而只需花费最小的控制力就不会摔倒。打开模型mdl = 'rlCartPoleSimscapeModel'

分类: 其他发布时间: 03-22 10:43 阅读次数: 0

MATLAB强化学习实战(八) 训练多个智能体执行协作任务

训练多个智能体执行协作任务创建环境创建智能体训练智能体智能体仿真本示例说明如何在Simulink®环境上设置多智能体训练。在该示例中，您训练了两个智能体以协同执行移动对象的任务。在该示例中，环境是包含以圆圈表示的元素的二维无摩擦表面。目标物体C由半径为2 m的蓝色圆圈表示，机器人A（红色）和B（绿色）由半径分别为1 m的较小圆圈表示。机器人试图通过碰撞力将物体C移动到半径8 m的圆环之外。环境中的所有元素都具有质量并遵守牛顿运动定律。此外，将元件与环境边界之间的接触力建模为弹簧和质量阻尼器系

分类: 其他发布时间: 03-22 10:42 阅读次数: 0

MATLAB强化学习实战(一) 强化学习智能体训练总览

强化学习智能体训练总览简介训练算法情节管理器保存候选智能体并行计算GPU加速验证训练后的策略环境验证简介创建环境和强化学习智能体后，您可以使用训练功能在环境中训练智能体。要配置您的训练，请使用rlTrainingOptions函数。例如，创建训练选项集opt，并在环境env中训练智能体。opt = rlTrainingOptions(... 'MaxEpisodes',1000,... 'MaxStepsPerEpisode',1000,... 'StopTrainingC

分类: 其他发布时间: 03-22 10:42 阅读次数: 0

MATLAB强化学习实战(九) 多智能体的区域探索

多智能体的区域探索创建环境创建智能体训练智能体智能体仿真此示例演示了一个多智能体协作竞争任务，其中训练了三个近端策略优化（PPO）智能体来探索网格世界环境中的所有区域。多智能体训练仅在Simulink®环境中支持。如本示例所示，如果使用MATLAB®System对象定义环境行为，则可以使用MATLAB System（Simulink）块将其合并到Simulink环境中。创建环境本示例中的环境是一个包含障碍物的12x12网格世界，未开发的单元格标记为白色，障碍物标记为黑色。红色，绿色和蓝色圆圈代

分类: 其他发布时间: 03-22 10:42 阅读次数: 0

MATLAB强化学习实战(十) 多智能体的路径跟随控制

多智能体的路径跟随控制总览创建环境此示例显示了如何训练多个智能体以共同执行车辆的路径跟踪控制（PFC）。 PFC的目标是通过控制纵向加速度和制动，使车辆以设定的速度行驶，同时保持与领头车的安全距离，并通过控制前转向角保持车辆沿其车道中心线行驶。有关PFC的更多信息，请参见路径跟随控制系统（模型预测控制工具箱）。总览训练DDPG路径跟踪控制智能体中显示了训练强化学习智能体以执行PFC的示例。在该示例中，训练了单个深度确定性策略梯度（DDPG）智能体，以控制车辆的纵向速度和横向转向。在此示例中，您

分类: 其他发布时间: 03-22 10:41 阅读次数: 0

MATLAB强化学习实战(十一) 使用自定义训练循环训练强化学习策略

使用自定义训练循环训练强化学习策略环境策略训练设置自定义训练循环仿真自定义训练函数损失函数帮助函数此示例显示如何为强化学习策略定义自定义训练循环。您可以使用此工作流程通过您自己的自定义训练算法来训练强化学习策略，而不是使用Reinforcement Learning Toolbox™软件中的内置智能体之一。使用此工作流程，您可以训练使用以下任何策略和值函数表示形式的策略。rlStochasticActorRepresentation —随机行动者表示rlDeterministicActor

分类: 其他发布时间: 03-22 10:41 阅读次数: 0

MATLAB强化学习实战(十二) 创建自定义强化学习算法的智能体

创建自定义强化学习算法的智能体创建环境定义策略自定义智能体类智能体属性构造函数相关函数可选功能创建自定义智能体训练自定义智能体自定义智能体仿真本示例说明如何为您自己的自定义强化学习算法创建自定义智能体。这样做使您可以利用Reinforcement Learning Toolbox™软件的以下内置功能。访问所有智能体函数，包括train和sim使用Episode Manager可视化训练进度在Simulink®环境中训练智能体在此示例中，您将自定义REINFORCE训练循环转换为自

分类: 其他发布时间: 03-22 10:41 阅读次数: 0

MATLAB强化学习实战(十三) 使用强化学习智能体训练Biped机器人行走

使用强化学习智能体训练Biped机器人行走两足机器人模型创建环境接口选择和创建训练智能体DDPG AgentTD3 Agent指定训练选项和训练智能体仿真训练过的智能体比较智能体性能References这个例子展示了如何使用深度确定性策略梯度(DDPG) agent和双延迟深度确定性策略梯度(TD3) agent训练双足机器人行走，并比较了这些训练过的agent的性能。本例中的机器人采用Simscape多体建模。有关这些智能体的更多信息，请参见深度确定性策略梯度智能体和双延迟深度确定性策略梯度智能体。

分类: 其他发布时间: 03-22 10:40 阅读次数: 0

MATLAB强化学习实战(十四) 基于 DDPG 智能体的四足机器人运动控制

基于 DDPG 智能体的四足机器人运动控制四足机器人模型创建环境接口创建 DDPG 智能体指定训练选项训练智能体智能体仿真参考这个例子展示了如何训练四足机器人使用深度确定性策略梯度(DDPG)智能体行走。本例中的机器人使用 SimscapeTM MultibodyTM 进行建模。有关 DDPG 智能体的更多信息，请参见双延迟的深度确定性策略梯度智能体。在 MATLAB 中将必要的参数加载到基本工作空间中。initializeRobotParameters四足机器人模型这个例子的环境是一个四足机

分类: 其他发布时间: 03-22 10:40 阅读次数: 0

在docker中启动vscode编辑代码

如果想要使用vscoed编辑docker中的代码，先启动容器docker exec -it $(docker container ls -q) /bin/bash然后启动vscodecode --user-data-dir此时vscode在docker的目录下打开，左上角打开想要编辑的文件就行了。

分类: 其他发布时间: 03-22 10:40 阅读次数: 0

图神经网络（GNN）学习图与图学习

图与图学习一. 图的基本表示方法二. 如何存储图三. 图的类型和性质四.什么是图神经网络？五.有哪些图神经网络？1. 图卷积网络（Graph Convolution Networks，GCNs）2. 基于空间的GCNs方法3. 基于组合的空间GCNs方法4. 图注意力网络（Graph Attention Networks）5. 图自动编码器（Graph Autoencoders）6. 图生成网络（Graph Generative Networks）7. 图时空网络Graph Spatial-Tempora

分类: 其他发布时间: 03-22 10:40 阅读次数: 0

[论文]鲁棒的对抗性强化学习

[论文]鲁棒的对抗性强化学习摘要1.简介1.1RARL综述2.背景2.1 MDPs中的标准强化学习2.2 两人零和折扣游戏3.鲁棒的对抗式RL3.1 对抗智能体的鲁棒控制3.2 提出方法:RARL结论摘要深度神经网络与快速模拟和改进的计算相结合，导致了最近在强化学习领域的成功。然而，目前大多数基于学习策略的方法不能推广，因为:(1)仿真和现实世界之间的差距太大，策略学习方法不能转移；(b)即使在现实世界中进行政策学习，数据稀缺也会导致从训练到测试场景的泛化失败(例如，由于不同的摩擦或物体质量)。受H∞控

分类: 其他发布时间: 03-22 10:40 阅读次数: 0

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)