【联邦学习】《联邦学习》读书笔记(一)

0、前言

1.联邦学习的动机

(1)保护用户隐私和数据安全。

(2)最大化地利用云系统下终端设备地计算能力。

2.FL模式

(1)B2C。如Google地Gboard系统。它也能支持边缘计算,云系统地终端(边缘)设备可以处理许多计算任务,从而减少了通过原始数据与中央服务器通信地需要。

(2)B2B。多个组织联合起来搭建一个共享地机器学习模型。

3.FL需要多个学科领域地合作。

机器学习算法、分布式机器学习、密码学与安全、隐私保护数据挖掘、博弈论与经济学原理、激励机制设计、法律与监管要求。

ch1、引言

1.概述

在FL中,所有加密的模型都会聚合到一个加密的全局模型中,因此云端的服务器也不能获知每台设备的数据或者模型。在云端聚合后的模型仍然是加密的。

2.FL

在满足 V_{SUM}-V_{FED} < \delta 时,联邦学习模型M_{FED}具有\delta(非负实数)的性能损失。

其中,V_{SUM} 和 V_{FED} 分别为集中型模型M_{SUM}和联邦型模型的性能量度(如准确率、召回率 和 F1分数等)。

联邦学习训练结束条件:模型收敛 / 达到最大迭代次数 / 达到最长训练时间。

3.FL的挑战

(1)参与方和中央服务器聚合服务器之间的通信链接可能是慢速并且不稳定的。

(2)来自不同参与方的数据可能会导致出现非独立同分布的情况。

(3)不同的参与方可能有数量不均的训练数据样本,这可能导致模型产生偏差,甚至会是联邦学习模型训练失败。

(4)由于参与方在地理上通常是非常分散的,所以难以被认证身份,这使得联邦学习模型容易遭受到恶意攻击。

4.FL的分类

设矩阵 D_{i} 表示第 i 个参与方的数据;设矩阵 D_{i} 的每一行表示一个数据样本,每一列表示一个具体的数据特征。

将特征空间设为 x ,数据标签(label)空间设为 y 、样本 ID 空间设为 z ,这三个组成一个训练数据集(xyz)。

(1)横向联邦学习适用于联邦学习的参与方的数据有重叠的数据特征(列重叠多),即数据特征在参与方之间是对齐的,但是参与方拥有的数据样本是不同的。例:参与方是两家服务于不同区域市场的银行,他们虽然可能只有很少的重叠客户,但是客户的数据可能因为相似的商业模式而有非常相似的特征空间。

(2)纵向联邦学习适用于联邦学习参与方的训练数据有重叠的数据样本(行重叠多),即参与方之间的数据样本是对齐的,但是在数据特征上有所不同。例:同一地区的一家银行和一家电子商务公司,提供不同的服务,但在客户群体上有非常大的交集时,他们可以在各自的不同特征空间上协作,为各自得到一个更好的机器学习模型。

(3)联邦迁移学习适用于参与方的数据样本和数据特征重叠都很少的情况

(4)最近,有文献提出分割学习。可以看作纵向联邦学习的一种特殊形式。它在纵向联邦学习之上使用了深度神经网络(DNN)。也就是说,分割学习主要使用了联邦学习的设置,并在纵向划分的数据集上训练DNN。

猜你喜欢

转载自blog.csdn.net/Aibiabcheng/article/details/109321636