机器学习的安全及隐私保护研究

  云计算:为机器学习数据存储、计算的平台。
  大数据:为机器学习提供了数据管理、支撑的平台。
  物联网:为机器学习提供了丰富的数据来源。
  以机器学习为代表的人工智能技术正在发挥越来越大的优势,影响和改变着人类的生活。但是机器学习背后又面临隐私泄露的问题。

一、背景

1.应用场景:图片处理、语音识别、广告推荐、自动驾驶。
2.机器学习的特点:more data→better models
3.人工智能的威胁
  人工智能作为新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能已经是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。人工智能包含了大量隐私性强、复杂性高、结构多样化的数据,安全问题为人工智能技术的广泛应用提出了严峻挑战。

二、机器学习基础

1.机器学习分类:
  (1)机器学习分为监督学习(包含一个或多个输入特征值和输出数据集);
  (2)无监督学习(给定没有人为标记的数据集);
  (3)半监督学习(无标签的数据与少量有标签的数据相结合的数据集);
  (4)强化学习(数据集不需要标签输入/输出对)。
2.特征提取过程使用神经网络的方法代替传统的提取方法。

三、安全及隐私威胁

1.敌手模型
  (1)敌手目标:期望的破坏程度和专一性;
破坏程度:完整性Z未经数据拥有者同意,对数据进行增删、修改或破坏)、可用性(使目标服务不可用)、隐私性(窃取隐私数据达到攻击者的其他目的);
专一性:针对性、非针对性。
  (2)敌手知识:敌手对目标模型或目标环境拥有的信息多少,可以分为白盒攻击和黑盒攻击。
  (3)敌手能力:敌手对训练数据和测试数据的控制能力;
  诱发性:影响训练集;
  探索性:不影响训练集。
  (4)敌手策略:实施攻击的措施。
2.对抗样本攻击
  (1)什么是对抗样本攻击
  深度神经网络能够对原始输入样本进行高精度的正确分类。在模型预测阶段,对输入样本中添加一些人眼无法察觉的细微扰动,得到所谓对抗样本,导致模型以高置信度给出错误的分类结果。
  (2)早期的攻击形式:垃圾邮件检测、恶意PDF检测等,目前攻击形式:对抗样本。
  (3)实例:如攻击自动驾驶系统,让其将限速100km/h的路标识别成限速120km/h;还有一个人脸识别的例子,一个女孩带了眼镜之后识别出来的图像可能变成一个中年男性。
  (4)特点:隐蔽性高(人眼无法识别图片是否加入扰动)、侵害面广、攻击力大(能欺骗分类器以将输入图片识别为任意类别)、迁移性强(针对某一模型生成的对抗样本,对其他一些模型也具有威胁性)。
  (5)攻击方法:针对模型损失函数优化样本扰动策略,以实现模型误分类的目的。
  (6)防御方法:
  ①对抗训练:通过在训练数据中引入对抗样本来提升模型鲁棒性,是对抗攻击最有效的防御方式之一。
  ②梯度掩码:通过将模型的原始梯度隐藏起来,达到防御对抗攻击的目的。
  ③去噪:在输入模型进行预测之前,先对对抗样本去噪,尽可能的使对抗样本恢复成原始样本,从而提升模型的鲁棒性。
  ④防御蒸馏:首先根据原始样本训练一个初始的神经网络得到一个概率分布,然后再根据这个概率分布构建一个新的概率分度,最后利用整个网络进行预测或分类,从而达到抵御对抗攻击的目的。

猜你喜欢

转载自blog.csdn.net/YSL_Lsy_/article/details/127462875