联邦学习节点激励机制论文研究

现有联邦学习研究有一个乐观的假设,即所有移动设备无条件地贡献其资源 ,由于模型训练会产生资源成本和能量消耗,这在现实世界中是不切实际的。如果没有精心设计的经济补偿,自私的移动设备就不愿意参与模型训练[。因此,有必要设计一种有效的激励机制来激励移动设备成为联邦学习任务的工作者。

在联邦学习中激励工人:Stackelberg 博弈视角

Sarikaya Y, Ercetin O. Motivating workers in federated learning: A stackelberg game perspective[J]. IEEE Networking Letters, 2019, 2(1): 23-27.

Stackelberg Game,即斯塔克尔伯格博弈,主要思想是双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到纳什均衡。在该博弈模型中,先作出决策的一方被称为leader,在leader之后,剩余的players根据leader的决策进行决策,被称为followers,然后leader再根据followers的决策对自己的决策进行调整,如此往复,直到达到纳什均衡。

纳什均衡,简单地说就是多人参加的博弈中,每个人根据他人的策略制定自己的最优策略,所有人的这些策略组成一个策略组合,在这个策略组合中,没有人会主动改变自己的策略,因为那样会降低他的收益。只要没有人作出策略调整,这个时候,所有参与者的策略便达成了一种平衡,这种平衡便是纳什均衡。

本文考虑了一种基于激励的方法来激励工人为本地培训分配更多的计算能力。在每个梯度更新步骤中,模型所有者都会向参与联邦学习过程的每个工作人员提供激励。基于这种激励,工作人员确定他们将用于根据本地数据计算梯度的 CPU 能力。模型所有者有有限的预算,并将其预算分配给其工作人员,以实现快速收敛到目标错误率。论文将移动设备和模型所有者之间的交互建模为 Stackelberg 博弈。在 Stackelberg 博弈中,模型所有者是购买者,因为它购买了移动设备提供的学习服务。然后,作为服务提供商的移动设备充当卖方。模型所有者本质上是 Stackelberg 博弈上层的单一领导者,而移动设备是相应的追随者

在博弈的下层,工人将他们的 CPU 功率 Pi 确定为单位价格 qi 的函数。在上层,模型所有者决定每个工人 的单位功率价格qi

下层子博弈(最大化工人效用函数)

表示工人从模型所有者那里得到的收入,表示工人计算产生的能量成本
上层子博弈(模型所有者最小化成本函数)

Ti,t为工人 i 在迭代 t 中更新梯度所用的时间,当所有工作人员发送他们的梯度更新时,迭代 t 在最大Ti,t时间内完成,完成学习过程所需的延迟取决于所有工作人员的 CPU 能力的总使用量。学习延迟随着Ti,t 最大值的期望值减小而变小。V≥ 0 是一个正常数优化参数。

基于博弈公式考虑模型所有者和工人的解决方案的 Stackelberg 均衡。具体来说,通过反向归纳,首先使用一阶最优性条件来获得下层子博弈的最优解。然后,我们将下层子博弈的纳什均衡代入上层子博弈,研究上层子博弈的解。

可靠联邦学习的激励机制:一种结合声誉和合同理论的联合优化方法

Kang J, Xiong Z, Niyato D, et al. Incentive mechanism for reliable federated learning: A joint optimization approach to combining reputation and contract theory[J]. IEEE Internet of Things Journal, 2019, 6(6): 10700-10714.

本文首先引入声誉作为衡量移动设备可靠性和可信度的指标。然后,通过使用多权重主观逻辑模型设计了一种基于信誉的工人选择方案,以实现可靠的联邦学习。我们还利用区块链以分散的方式为具有不可否认性和防篡改特性的工人实现安全的声誉管理。此外,我们提出了一种将声誉与契约理论相结合的有效激励机制,以激励具有高质量数据的高声誉移动设备参与模型学习。

步骤1(发布联邦学习任务和合同项):任务发布者首先根据其联邦学习任务的数据和计算资源需求设计合同项。每个任务发布者将其具有特定资源要求(例如,数据类型、数据大小和准确性、时间范围和 CPU 周期)和合同项的联邦学习任务广播到移动设备。满足要求的移动设备可以成为模型训练工作者的候选者加入联邦学习任务,并且还可以将包括资源信息的响应返回给任务发布者。

步骤2(计算候选人声誉):任务发布者根据资源信息选择合格的工作者候选人。任务发布者通过多权重主观逻辑模型计算工人候选人的声誉值,根据:a)来自交互历史的直接声誉意见;b)来自其他任务发布者的间接声誉意见(即推荐的声誉意见)。推荐的声誉意见在开放访问的声誉区块链上存储和管理。任务发布者将其直接声誉意见与推荐的声誉意见相结合,生成一个综合值作为每个候选人的最终声誉。

主观逻辑是一种广泛采用的概率推理框架,用于评估不同实体的可信度或可靠性水平。主观逻辑使用通过肯定、否定和不确定性陈述来表示主观信念,即“意见”,也可以结合和关联来自大量逻辑运算符的不同意见。信誉意见向量,b,d,u分别表示belief,disbelief,uncertainty.
声誉意见受许多因素影响,1)交互效应:根据局部模型更新质量评估,交互事件存在正负交互结果。积极的互动提高了工人候选人的声誉,反之亦然。为了阻止负面交互事件,负面交互对声誉计算的权重高于正面交互; 2)交互新鲜度:工作人员的可信度随着时间的推移而变化,并且在交互过程中,工作人员并不总是被信任和可靠的。与过去的事件相比,具有更多新鲜度的近期交互事件具有更大的权重。

两个任务发布者之间更频繁互动的工作人员为他们带来了更大的间接声誉意见可信度。每个任务发布者对工作人员的声誉意见表示为一个单独的向量。任务发布者之间声誉意见的相似性可以通过使用修正余弦函数通过向量的相似性来衡量。较大的相似性因子表示来自推荐者的声誉意见更受信任。

步骤3 (选择联邦学习工作人员):经过信誉度计算,可以选择信誉度大于某个阈值的worker候选者作为workers。这些工作人员根据与本地数据集质量和资源条件相关的类型,做出自己的最佳决策,以选择任务发布者提供的合同项目。

worker进行一次局部迭代的CPU能耗:
worker 在全局迭代中传输局部模型更新的能量消耗
对于全局迭代,worker 的总能量消耗表示
将worker分为N种,按照数据质量从高到低排序:θ1 <···<θn<···<θN,n∈{1, . . . , N}。 θn 越大,意味着局部数据质量越好,精度越高,这会带来更少的局部模型迭代。尽管任务发布者不知道给定工作人员的确切类型,但它知道工作人员属于某个类型的概率。任务发布者可以从工人的先前行为的观察和统计中获得工人类型的分布。任务发布者应针对不同类型、不同数据质量水平的工人设计具体的合同,以增加其利润。

对于任务发布者来说,加入联邦学习的高类型工人越多,利润越多,但也会导致更大的奖励成本。显然,任务发布者在执行联邦学习任务时不会接受负利润,任务发布者的目标是在联邦学习任务中最大化其利润

工人希望在执行联邦学习任务时尽量减少能源消耗,以最大限度地提高其效用。 n 型工作者的总体目标表示为

为了使合同可行,确保每种类型的工人都受到充分的激励,每个合同必须满足以下约束条件:

1)Individual Rationality(个体理性):每个worker只在worker的效用不小于零时才参与联邦学习任务。

2)Incentive Compatibility(激励相容性):为了最大化效用,每个工人只能选择为自己设计的合约,而不是任何其他合约。

步骤4(执行联邦学习并评估本地模型更新的质量):工作人员在他们自己的本地数据上协作训练模型,并将他们的本地模型更新上传到任务发布者。为了评估本地模型更新的可靠性,任务发布者通过攻击检测方案对本地模型更新进行质量评估。在每次迭代中,与不可靠的工作人员或中毒攻击者的交互都被视为负面交互并由任务发布者记录。最后,任务发布者根据过去的交互为联邦学习任务中的所有工作人员生成直接声誉意见。

步骤5(更新信誉区块链的信誉意见):在完成联邦学习任务后,任务发布者根据交互历史更新其对交互工作人员的直接信誉意见。这些带有工人数字签名的声誉意见被记录为“交易”并上传到声誉区块链中。最后,所有任务发布者都可以借助声誉区块链为他们的联邦学习任务选择声誉较高的可靠工作者。

迈向无线联合学习服务市场的自动拍卖框架

Jiao Y, Wang P, Niyato D, et al. Toward an automated auction framework for wireless federated learning services market[J]. IEEE Transactions on Mobile Computing, 2020, 20(10): 3034-3048.

本文中提出了一种基于拍卖的市场模型,用于激励数据所有者参与联邦学习。我们为联邦学习平台设计了两种拍卖机制,以最大化联邦学习服务市场的社会福利。具体来说,我们首先设计了一种近似的策略证明机制,保证了真实性、个体理性和计算效率。为了提高社会福利,我们开发了一种基于深度强化学习和图神经网络的自动化策略证明机制。在所提出的模型中特别考虑了通信流量拥塞和联邦学习的独特特征。

与 Stackelberg 博弈和合约理论不同,拍卖机制允许数据所有者主动报告其类型,并已应用于各种应用场景。因此,FL 平台可以充分了解他们的状态和要求,以优化目标绩效指标,例如市场的社会福利或平台的收入。

平台首先初始化大小为 M 和超参数的全局神经网络模型,然后平台宣布拍卖规则并将 FL 任务广告到数据拥有者。然后,数据所有者报告他们的类型配置文件 T = {t1, . . . , tN } 和请求的无线信道配置文件 C = {C1, . . . , CN }。数据所有者 i 的类型 ti 包含出价 bi,大小 di 和其拥有的本地数据的 EMD 值σi,即 ti = {bi, dii}。 Ci是数据所有者 i 请求的与 FL 平台通信的无线信道的集合。根据接收到的类型,平台必须选择工人并通知所有数据所有者服务分配,即 FL 工人集 W,以及相应的支付 p = {p1, . . . , pN } 给每个数据所有者。

数据所有者需要计算收集本地数据的成本。本地数据成本不仅来自传感设备的部署,例如物联网小工具和智能手机,还来自需要昂贵的人工干预来进行数据注释和清理的数据预处理,例如冗余消除和异常检测。因此,数据所有者 i 本地数据成本 ,计算成本,通信总成本
数据所有者 i 的总服务成本
FL平台用于全局模型的计算和通信总成本
FL 平台的效用是数据效用减去总成本和支付给工人的总费用
数据所有者 i 的效用是其支付 pi 与服务成本 ci 之差
设计拍卖机制以最大化社会福利,这可以被视为 FL 系统效率 ,并被定义为平台效用和数据所有者效用的总和。形式上,社会福利最大化问题是

高效稳定的 FL 市场,应保证经济属性:IC,IR,CE(计算效率)
反向多维拍卖(RMA)机制,以最大化中定义的社会福利,RMA 通常遵循随机和贪婪的方式来选择 FL 工人并决定付款。RMA机制虽然可以保证IC、IR和CE,但其实现的社会福利仍然受到限制。原因是随机化可能会降低社会福利绩效,工人之间的信道冲突没有得到很好的体现和利用。利用强大的人工智能(AI)建立自动化机制,在确保IC和IR的同时提高社会福利。具体来说,我们首先使用图神经网络 GNN来利用冲突关系并生成有效的嵌入。基于嵌入,我们提出了一个深度强化学习(DRL)框架来设计真实的拍卖机制,以提高社会福利。具体来说,我们首先使用图神经网络 GNN来利用冲突关系并生成有效的嵌入。基于嵌入,我们提出了一个深度强化学习(DRL)框架来设计真实的拍卖机制,以提高社会福利。

基于GNN的特征工程

深度 Q 学习框架下的自动化机制

与 RMA 类似,基于 DRL 的拍卖机制应用了逐步找到工人的贪婪方案。基于深度强化学习的拍卖(DRLA)机制使用图神经网络有效地从工人报告的类型中提取有用的特征,并自动确定服务分配和支付。

编码联邦学习中激励参与的分层激励设计

Ng J S, Lim W Y B, Xiong Z, et al. A hierarchical incentive design toward motivating participation in coded federated learning[J]. IEEE Journal on Selected Areas in Communications, 2021, 40(1): 359-375.

利用编码技术向FL服务器引入冗余计算的编码联邦学习(CFL)已经被提出来减少计算延迟。在CFL,FL服务器基于复合奇偶校验数据帮助计算部分梯度的子集,并将计算的部分梯度与从FL工作器接收的部分梯度聚合。本文考虑一个两级激励机制设计问题。在较低的级别,数据所有者被允许通过贡献他们的数据来支持FL工作者的FL培训任务。为了模拟数据所有者选择FL工人的动态,采用进化博弈来获得均衡解。在上层,提出了基于深度学习的拍卖来模拟模型所有者之间的竞争。

为了最小化FL训练任务的等待时间,可以使用引入冗余计算的编码技术。特别是对于FL任务,编码联邦学习(CFL) 通过将冗余计算分配给FL服务器来加速FL训练过程。在CFL中,边节点计算其本地数据集子集的部分梯度,而不是整个数据集。

将数据所有者对FL员工的动态选择建模为一个进化博弈。通过与其他数据所有者的反复交互,数据所有者确定FL工作人员后贡献他们的数据以最大化他们的效用。进化博弈决定了每个FL工作者拥有的数据总量。

采用基于深度学习的拍卖方案来确定FL工人到模型所有者的分配。它满足个体理性和激励相容的性质,这两个性质分别激励FL工作人员参与拍卖和提交真实报价。

一种新的联合数据集和激励管理机制,用于 MEC 上的联邦学习

Lee J, Kim D, Niyato D. A Novel Joint Dataset and Incentive Management Mechanism for Federated Learning Over MEC[J]. IEEE Access, 2022, 10: 30026-30038.

制定了一个Stackelberg博弈来模拟和分析FL参与者(移动设备,称为MDs)和FL服务提供商(移动边缘计算系统,称为MECs)的行为。在博弈中,每个MEC都是领导者,而MDs是追随者。作为领导者,为了通过考虑提供激励的成本和从FL训练获得的估计精度之间的权衡来最大化其自身的收入,每个MEC为每个FL任务的参与以及每个MD的目标精度水平向MDs提供全部激励。建议的总激励按MDs与应用于本地训练的数据集量的比例进行分配,这间接影响FL的全局精度。基于建议的激励,MDs确定用于每个FL任务的本地训练的数据集的量,以最大化它们自己的回报,其被定义为FL参与和预期激励所消耗的能量。利用逆向归纳法,我们证明了MDs之间纳什均衡的存在性和唯一性,然后通过分析领导者博弈来检验Stackelberg均衡。我们还讨论了所提出的机制的扩展,其中MDs不知道其他MD配置文件的显式信息,例如作为实际问题的收入权重,这可以被重新设计成Stackelberg贝叶斯博弈。最后,我们揭示了Stackelberg平衡解决方案最大化所有MDs和MECs的效用。

激励半监督车辆联邦学习:一种有限理性的多维契约方法

Ye D, Huang X, Wu Y, et al. Incentivizing Semisupervised Vehicular Federated Learning: A Multidimensional Contract Approach With Bounded Rationality[J]. IEEE Internet of Things Journal, 2022, 9(19): 18573-18588.

提出了一种半监督车辆联合学习(半VFL)框架。在该框架中,每个车载客户端使用由应用提供商共享的标记数据和其自己的未标记数据来合作更新全局深度神经网络模型。此外,应用提供商将多维契约理论和前景理论相结合,设计了一种激励机制来激励合适的车载客户参与半VFL。多维契约理论用于处理应用提供商不知道车载客户三维成本信息的信息不对称场景,而前景理论用于建模应用提供商的风险意识行为,使激励机制在实践中更容易被接受。然后,导出了PT下最优合同项的封闭解。我们给出了真实世界的实验结果来证明,与现有的基线方案相比,半VFL在测试精度和收敛速度上都具有优势。在实验结果的基础上,我们进一步进行了模拟实验来验证我们的激励机制是有效的。

一种基于学习的联邦学习激励机制

Zhan Y, Li P, Qu Z, et al. A learning-based incentive mechanism for federated learning[J]. IEEE Internet of Things Journal, 2020, 7(7): 6360-6368.

  • 通过整合激励机制和模型更新要求,研究并构建了物联网联邦学习的Stackelberg博弈。推导了参与者共享他们的决策(例如,用于模型训练的数据量)并且参数服务器可以准确地评估他们对训练准确性的贡献的情况下的纳什均衡。

将联邦学习的激励机制公式化为每个训练周期的Stackelberg博弈。这个机制有两个阶段。在第一阶段,参数服务器宣布总奖励,随后是第二阶段,每个用户确定自己的训练策略,以最大化自己的效用。因此,在这个Stackelberg博弈中,参数服务器是领导者,边缘节点是跟随者。博弈论是一个强大的框架,用来分析多个参与者之间的相互作用,这些参与者按照自己的利益行事,因此没有参与者有单方面偏离的动机。此外,通过利用每个参与者的智能,博弈论是设计低复杂性分散机制的有用工具,这样参与者可以自我组织成相互满意的解决方案。

  • 设计了一种使用DRL的算法,使得参数服务器和边缘节点可以动态调整策略,以优化他们的利益,即使不知道参与者的决策和准确的贡献评估。

    与现有的方法不同,DRL根据当前状态和给定的奖励,努力从过去的经验中学习一般的行动决策。在演员-评论家模型的基础上训练基于DRL的激励机制模型,上图示出了基于DRL的激励机制的工作流程,其中参数服务器充当与DRL环境交互的领导者。在每个训练周期t,参数服务器代理观察状态st并确定动作τt。当该动作完成时,边缘节点彼此交互以确定它们的最佳参与级别策略。由于每个边缘节点不知道关于其他边缘节点的决策的任何信息,所以它们需要学习最优策略。我们可以使用离线模式来训练边缘节点。所有的边缘节点在非合作博弈模拟环境中相互作用以学习纳什均衡。在每个边缘节点获知纳什均衡后,它们基于它们的本地数据更新模型,并将更新后的模型上传到参数服务器。至此,第t个训练期结束。然后,当前状态转换到下一个状态st+1,并且参数服务器代理接收奖励rt。如果参数服务器代理继续这个过程,它在每个动作之后获得累积奖励,直到完成为止。DRL的目标是找到一个最优策略,即把一个状态映射到一个行动上,使期望的贴现累积报酬最大化。

猜你喜欢

转载自blog.csdn.net/qq_43570515/article/details/130157116