RL+RA 文献Multi-Agent Deep Reinforcement Learning for Enhancement of Distributed Resource Allocation

O. Urmonov, H. Aliev, and H. Kim, ‘Multi-Agent Deep Reinforcement Learning for Enhancement of Distributed Resource Allocation in Vehicular Network’, IEEE Systems Journal, vol. 17, no. 1, pp. 491–502, Mar. 2023, doi: 10.1109/JSYST.2022.3197880.

简述:

本文针对5G车联网中的分散式无线资源管理问题,提出了一种基于多主体深度强化学习( MARL )的资源分配算法。我们让每个车辆作为一个个体代理,它可以选择一个唯一的传输块( transport block,TB )和发射功率组合来广播周期性的数据包。

贡献总结如下。1 )为了解决多智能体环境下的非平稳问题,在评论者DNN中运行了集中式训练,在行动者DNN中运行了分散式执行。2 )提出了一种有效的方法,可以减少隐藏终端干扰场景,并提供高可靠的一跳V2V广播。3 )利用LSTM有效利用时序信息,同时共享训练参数,加快整个训练过程。4 )引入新的回报函数,反映半双工和合并碰撞场景对V2V链路容量和PRR的影响。5 )我们应用了一种有效的多智能体深度学习方法,该方法考虑了所有智能体的移动性,以避免TB分配过程中的合并碰撞。

C-V2X资源分配模式:

在C - V2X网络中,一个频段被划分为若干个子信道,每个子信道在1 ms的子帧中表示一组无线资源块( Radio Resource Block,RB ),如图1所示。更确切地说,图1展示了一个例子,其中10 MHz的频段被划分为4个子信道,而全帧被划分为20个1ms的子帧,以构建一组80个RB。每个设备选择其传输块( transport block,TB ),即一组RB来传输数据。TB的大小根据数据包中数据的长度而变化。TB的前两个RB专门用于控制信道,以广播一个侧链路控制信息( SCI )。

C-V2X模式1是基站分配资源,模式2是车辆来分配资源(有颗细分为四个mode)。

 1 ) C - V2X标准为"在覆盖范围内"或"模式1 "和"在覆盖范围外"或"模式2 "通信场景提供了一种介质访问控制模式[ 3 ],[ 4 ]。在模式- 1中,资源分配由蜂窝网络基础设施管理,而在模式- 2中,每个车辆自主地选择自己的资源,如图2 ( b )所示。

在模式2中,车辆可以执行长期(窗口级)或短期(符号级)信道感知操作[ 3 ],以找到可用的TB。模式- 2进一步扩展为四种不同的模式。

2 )模式2 ( a ):每辆车执行窗口感知操作以选择可用的TB。

3 )模式2 ( b ):车辆A协助车辆B选择合适的TB。

4 )模式2 ( c ):每辆车使用符号感知和预先配置的侧链路授权模式[ 3 ]来占用可用的TB。

5 )模式2 ( d ):车辆A对车辆B进行TB拣选。

在N个车联网中,每辆车接收来自其一跳邻居的周期性广播数据包。因此,每辆车都可以很容易地在其一跳范围内检测到所有被占用的TB。然而,超过一跳范围,车辆可能无法检测到繁忙的TB。因此,标准协议[ 2 ]、[ 3 ]无法提供一个完全解决了隐藏终端干扰问题,因为干扰范围远大于信道感知距离。

C - V2X标准[ 4 ] [ 5 ]提供了一种半持久性调度( SPS )方案,允许车辆在长期的信道感知操作后选择资源。每个车辆(作为发射端)将其TB预留给预定义的重选计数器( RC ),并在此TB内连续发送其数据,以便其他车辆准确估计此TB被占用。发送器还不断感知所有子信道,以检测其他TB中正在进行的传输。为了识别空闲的TB,发射器使用选择窗口( Selection Window,SW )来寻找可用的TB。文献[ 4 ]对SW的使用目的做了详细说明,当发射机每秒广播10 / 20 / 50个数据包时,SW的长度可以等于100 / 50 / 20 ms。在SW中,发送方发现候选TB并将其添加到列表L1中。如果ATB的RSSI低于预定义的阈值,则认为ATB是空闲的。一旦车辆在L1中收集了至少20 %的TB,则构建下一个列表L2,其中包含RSSI较低的L1的TB。最后,发射机从L2中随机抽取TB,并将其用于下一个RC周期。一辆车重复这个过程来挑选一个新的TB。SPS可以在一跳距离内有效消除并发传输或接入碰撞,但并不能解决隐藏节点干扰问题。

在最近的3GPP标准提案[ 21 ] [ 22 ]中,一种新的基于短时感知的信道接入技术先听后讲( LBT )被描述为SPS的备选方案。在LBT中,每个车辆在接入信道前都会进行明确的信道评估和潜在的随机退避。因此,信道感知周期可能只持续几个符号时间。然而,LBT模式下的随机退避过程可能会严重影响总的端到端延迟。特别地,当系统加载或网络阻塞时,延迟超出了预算。此外,在LBT模式下,隐藏节点问题仍然可能影响网络性能。因此,我们认为在考虑将LBT模式作为标准信道接入方案之前,应对其进行广泛的性能分析。

为了保持极低的延迟(例如, 3ms的端到端延迟)和高可靠性的(例如, 99.999 %的PRR),需要建立快速的重复传输和预配置资源的即时访问。根据文献[ 22 ],[ 23 ],这可以通过无授权信道接入模式来实现,该模式代表了一个预配置的二维时间/频率重复模式( TFRP )池。在这种模式下,车辆可以预先配置一个TFRP池,然后自主地从池中选择一个随机的TFRP来传输数据。为了缓解半双工约束,TFRP池的组织方式应使任意两个不同的TFRP在至少一个定时装置中不发生碰撞。因此,免授权的信道接入模式保证了超过一个TB的吞吐量,并且需要相同负载的重复传输,以避免隐藏节点和半双工问题。然而,这可能会导致低效的带宽利用问题和拥塞的网络状态。

Model主要解决隐藏终端问题,忽略。

猜你喜欢

转载自blog.csdn.net/qq_38480311/article/details/132294763