数仓建模—数据安全

数据安全

差分隐私

差分隐私是用来防范差分攻击的，差分隐私（英语：differential privacy）是密码学中的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。

在2016 年6 月份的苹果 WWDC 大会上苹果公司负责软件工程的高级副总裁克雷格•费德里希(Craig Federighi)在WWDC上满脸傲骄地说「We believe you should havegreat features and great privacy」，那个瞬间特别像一个小孩子，自信满满地向世界宣告「我们就是能站着把钱赚了」。就这样，差分隐私从研究论文一跃成为科技新闻头条。其实 Google 也有尝试过类似的事情，在 GitHub 上开源了一个名为RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response)的项目，从原理上来说，也是向数据中注入可控的噪音元素的方式来保护用户隐私，早在2014 年Google就以这项技术来收集用户使用Chrome浏览器时的资料。不过DP主要是由微软研究院的C. Dwork提出及发展，微软也已经在这个领域申请了不少的专利。遗憾的是，一如苹果宣称的，苹果是唯一一家将Differential Privacy作为标准大规模部署的公司。

比如有一群人出去聚餐，那么其中某人是否是单身狗就属于差分隐私。为了更形式化地描述差分隐私，我们需要先定义相邻数据集。现给定两个数据集D和D’, 若它们有且仅有一条数据不一样，那我们就称此二者为相邻数据集。那么对于一个随机化算法（所谓随机化算法，是指对特定输入，该算法的输出不是固定值，