读书笔记-Distributed Cooperative Reinforcement Learning-Based Traffic Signal Control That Integrates V2X

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/gaoruowen1/article/details/82761026

Distributed Cooperative Reinforcement Learning-Based Traffic Signal Control That Integrates V2X

基于 V2X网络 动态聚类算法 的分布式协同强化学习流量控制。

主要思路

准确即时获取交通流信息 -> V2X集群稳定 -> 提出一种新的动态聚类算法
控制平衡流量 -> 协同强化学习

问题背景

目前,大多数的ITS系统根据安装在交叉路口附近的 传感器感测 的实时交通数据来计算。难以维护和更新

-> 利用短程无线通信:V2X网络
通过VANET获得实时交通道路信息。这种方法为车辆检测和交叉口合作提供了新的方法。当车辆在红绿灯前等候时,会将他们的相关信息发送给交叉路口代理。

-> V2X网络的信息通信组织:集群结构,因此需要考虑如何 维持群集稳定性 --> 提出稳定聚类算法

-> 获得交通信息后,考虑交通信号控制优化:协同强化学习 -> 如何解决高维问题(利用函数逼近技术) -> 如何解决逼近方法的较慢收敛性(运用快速梯度下降这种逼近方法)

相关技术 - V2X中信息采集

1、网络模型

V2X网络可以包括两种通信模式:
– V2I(车辆 到 基础设施(交叉口控制代理))模式
– V2V(车辆 到 车辆,即VANET)模式
它将形成一个大型移动通信网络,以支持流量控制优化
在这里插入图片描述

交叉口控制代理通信范围内的车辆:可以直接将数据传输给交叉口控制代理
远程车辆:通过车辆集群头之间的多跳通信将数据传输给交叉口控制代理

交通信号阶段时间表——决定何时允许车辆通过某些方向。阶段决策可以建模为MDP框架,它可以实现基于强化学习的智能控制。

2、动态聚类算法

聚类的主要目的是在节点的移动下实现相对稳定的聚类结构。
有效集群大小 <- 无线电传输范围、车流密度

集群过程包括3个阶段:
1)初始集群形成 集群大小
2)集群头选举 将基于 消息传递 的相似性传播算法 应用于 车辆网络;设计集群中结点的相似性函数,集群头节点与集群中的其他节点具有最大相似度
3)集群维护 加入集群;离开集群;集群合并

3、动态交通数据收集

集群中的节点将其数据发送到集群头。每个集群头接收其集群内每个节点的交通数据

– 车辆是孤立结点:存储其信息包,直到某个集群头或交叉口代理在通信范围内
– 集群头不在交叉口代理的通信范围内:集群头将交通信息包广播到相同方向上的相邻集群头
– 集群头在交叉口代理的通信范围内:集群头将交通信息包直接发送给交叉口代理

交叉口控制代理根据从V2X网络接收的交通信息来调节交通信号。

相关技术 - 交通信号控制优化

1、协作强化学习

一个交叉口的行动选择策略不仅取决于其自身的奖励,还取决于其相邻交叉口的奖励。
交叉口代理交换其最大Q值以实现协作,并设定邻近交叉口代理的权重

2、快速函数逼近


仿真

验证通信性能:NS3
验证交通性能:SUMO
两个仿真通过TRACI接口连接

V2X 网络仿真
利用NS3分析,评估所提出的算法在动态聚类和数据收集方面的性能。
(与PPC 、VWCA这两种聚类算法比较)
网络稳定性指标:
– 集群的平均寿命
通信性能指标:
– 包传送比率(VANET中数据包传输的成功率,即接收的包数量与发送包数量的比率)
– 通信成本(目标节点在数据传输过程中接收的重复数据包的数量)
– 平均延迟(所有接收数据包的平均延迟)

V2X网络和交通信号控制集成仿真
(与PPC 、VWCA这两种聚类算法比较;与TLC、LQF、RL这三种交通信号控制算法比较)
交通控制性能指标:
– 平均交叉口等待时间
– 到达的道路使用者总数
– 总队列长度



猜你喜欢

转载自blog.csdn.net/gaoruowen1/article/details/82761026
今日推荐