联邦学习(Federated Learning)白皮书

联邦学习白皮书下载地址:
https://cn.fedai.org
https://img.fedai.org.cn/wp-content/uploads/pdf/联邦学习白皮书_v2.0.pdf

2020年4月8日,微众银行人工智能部联合电子商务与电子支付国家工程实验室(中国银联)、鹏城实验室、平安科技、腾讯研究院、中国信通院云大所、招商金融科技等多家企业和机构发布了《联邦学习白皮书V 2.0》,下文为白皮书中相关内容的简单摘要,进行简要的介绍联邦学习。

一、联邦学习的背景和重要性

1.1 人工智能发展的现状

从1955年达特茅斯会议开始,人工智能经过两起两落的发展,迎来了第三个高峰期,下面简单罗列一下人工智能的简单发展史:

  • 第一个高峰:人们看到AI的希望,也就是自动化算法对提高效率的希望

  • 第一个低谷:受算法能力的限制,机器不能完成大规模数据训练和复杂任务,由此进入第一个低谷。

  • 第二个高峰:霍普菲尔特神经网络的提出,以及BP算法实现了神经网络训练的突破,使得大规模神经网络训练成为可能。

  • 第二个低谷:虽然理论上大规模神经网络的训练成为可能,但发现算力和数据不够,专家系统的设计跟不上工业的成长需求,引发了第二次低谷。

  • 2006年,深度学习神经网络的提出,伴随着近年来算法和算力的巨大提升以及大数据的出现,人工智能迎来了第三个高峰。

2016年的AlphaGo,其总计使用了30万盘棋局作为训练数据并且接连战胜两位人类职业围棋选手,我们真正看到了人工智能迸发出的巨大潜力,也更加憧憬人工智能技术可以在自动驾驶、医疗、金融等更多、更复杂、更前沿的领域施展拳脚。

AlphaGo的巨大成功使得人们自然而然地希望像这种大数据驱动的人工智能会在各行各业得以实现。但是除了有限的几个行业,更多领域存在着数据有限且质量较差的问题,不足以支撑人工智能技术的实现。更多的应用领域有的只是小数据,或者质量很差的数据。这种“人工智能到处可用”的错误的认知会导致很严重的商业后果。

同时数据源之间存在着难以打破的壁垒,一般情况下人工智能的所需要的数据会涉及多个领域,例如在基于人工智能的产品推荐服务中,产品销售方拥有产品的数据、用户购买商品的数据,但是没有用户购买能力和支付习惯的数据。在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。

1.2 人工智能面临的挑战

随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。每一次公众数据的泄露都会引起媒体和公众的极大关注,例如最近Facebook的数据泄露事件就引起了大范围的抗议行动。同时各国都在加强对数据安全和隐私的保护,欧盟2018年正式施行的法案《通用数据保护条例》(General Data Protection Regulation, GDPR)表明,对用户数据隐私和安全管理的日趋严格将是世界趋势。

这给人工智能领域带来了前所未有的挑战,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方,如A方收集数据,转移到B方清洗,再转移到C方建模,最后将模型卖给D方使用。这种数据在实体间转移,交换和交易的形式违反了GDPR,并可能遭到法案严厉的惩罚。

同样,中国在2017年起实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》中也指出网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务。这些法规的建立在不同程度上对人工智能传统的数据处理模式提出了新的挑战。在这个问题上,人工智能的学界和企业界,目前并无较好的解决方案来应对这些挑战。

1.3 数据隐私保护可行性解决方案

如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确地共同使用各自的数据,是当前人工智能发展的一个重要课题。目前一个满足隐私保护和数据安全,解决数据孤岛问题的方案,叫做联邦学习。

联邦学习是:

  • 各方数据都保留在本地,不泄露隐私也不违反法规; .
  • 多个参与者联合数据建立虚拟的共有模型,并且共同获益的体系;
  • 在联邦学习的体系下,各个参与者的身份和地位平等;
  • 联邦学习的建模效果和将整个数据集放在一处建模的效果相同,或相差不大(在各个数据的用户对齐(user alignment)或特征(feature alignment)对齐的条件下);
  • 迁移学习是在用户或特征不对齐的情况下,也可以在数据间通过交换加密参数达到知识迁移的效果。

二、联邦学习应用案例

2.1 背景及需求

以车险为例,传统车险的定价方式是从车定价,根据车的品质来确认保费,好车保费远高于普通车,但实际上,车辆使用情况、行车区域环境等方面的内容也是影响保期内赔付风险的重要因素,对车险保费定价有着至关重要的影响。因此,从车定价到从人定价,是消费者市场的大趋势。但对强监管的保险行业而言,影响定价精确性的数据分布分散,只有垂直场景的交易数据,新客数据表现也较少,缺乏有效机制将数据链接整合起来,难以实现精准定价。

此外,随时代发展,保险行业产品同质化严重,营销方面无法进一步精准 触达,也影响着保险企业及机构的未来发展。

2.2 联邦学习解决方案

车险定价方面,针对从人、从车、从行为等数据分散在不同的公司,数据无法出库,无法直接进行聚合并建模的症结,引入联邦学习机制建模,在保护各合作机构企业用户隐私数据不出库的前提下,安全合规接入多方数据源,打破数据壁垒。
其中,面对产品同质化严重导致定价僵硬问题,着重引入多维度多标签的互联网行为数据,完善用户画像,提供个性化定价服务,推动智能营销决策。而针对新用户道德风险把控等场景,引入安全大数据,有效识别恶意用户和欺诈骗保行为。

2.3 联邦学习的效益和前景

基于联邦学习建立的数据模型具有丰富的风险特征体系,能有效判别风险、预测赔付成本,并提供个性化定价服务。行业定价准确率大幅提升,总比例超90%。
此外,方案通过符合隐私保护条例的大数据模型,进一步升级智能营销服务体系,提升更加精准化、定制化的综合金融服务能力,精准挖掘高潜客户,从而协助保险机构及企业解决新客覆盖问题。

数据对保险企业及机构来说,可以更好地读取更多关于保险用户市场的信息。基于联邦学习的智慧金融能实现保护数据安全基础上,打破数据壁垒,实现保险行业,上下游业务场景深度结合,解决保险企业、中介机构及代理人数据孤立、客户体验差等困扰,通过降低营销运营成本,提升数据服务效率,提高其全线质量,助力保险市场数字化健康有序发展。

三、总结与展望

近年来,数据的孤岛分布以及对数据隐私监管力度的加强正在逐渐成为人工智能的下一个挑战,联邦学习的产生为人工智能打破数据屏障和进一步 发展提供了新的思路。它实现了在保护本地数据的前提下让多个数据拥有方联合建立共有的模型,从而实现了以保护隐私和数据安全为前提的互利共赢。

期待在不远的将来,联邦学习能够帮助打破各领域、各行业的数据壁垒,在保护数据隐私和安全的前提下形成一个数据与知识共享的共同体,并同时解决了奖励对联盟做出贡献机构的共识机制,必将能为人工智能带来的红利落实到社会的各个角落。

猜你喜欢

转载自blog.csdn.net/qq_33414271/article/details/105810320