论文参考:面向数据发布的隐私保护技术研究

贡献

本文主要针对动态数据流发布和多用户协同数据发布中的隐私保护问题展开研究。

在非交互式数据发布中,由于数据拥有者并不知道数据分析者会对匿名数据集进行何种查询,因此设计隐私保护算法需要同时满足隐私性以及较高的可用性。

目前的研究可分为三类:

  • 对隐私规则的研究:如K-匿名,差分隐私
  • 根据某种已有的隐私规则进行匿名数据发布的算法研究,主要是如何对算法进行优化,来提高数据可用性:如研究如何更好的分配差分隐私模型中的隐私预算。(本文属于这类工作
  • 研究如何更准确的衡量匿名数据集的可用性

攻击者掌握的背景知识

  • 外部数据:一.公开可获得的数据。二.关联数据:如目标个体相关人的信息。通过这些从外部数据获得的额外信息,攻击者可在匿名数据中推敲目标个体存在的元组,并进一步发现敏感信息。
  • 常用知识:是关于目标个体敏感信息分布的额外信息,可以从很多来源获得。如:对手可能从他的同事那里听说另一位同事的工资超过10k;冬天容易感冒,去医院第一步往往是先挂号。
  • 基于隐私保护算法的知识:攻击者可能知道所使用的匿名算法的机制。某些情况下,算法本身就可能披露敏感信息。

同一位患者可能在多家医院就诊并留下诊疗记录,即不同数据集出现同一个体的情况,当某一个数据集被攻破可能导致其他数据集隐私的泄露。另外,可能某医院的工作人员有着多家医院的就职经历,如果这样的人来进行聚合处理,就有可能暴漏隐私。

对应解决方法:每家医院都独立的对自身数据进行匿名,然后再与其他医院聚合;或者使用协同数据处理的安全策略安全地进行聚合,然后再进行匿名化。

在对手拥有足够的背景知识的条件下,有时候即使是显示极少属性的数值型统计信息也会泄露个体的隐私。

如:医院对数据分析者提供查询服务,若将患某种疾病设置为1,未患病设置为0,就可查询数据集前i行的患病人数统计,通过查询前i-1行的统计数,可以差分出第i行记录个体的患病信息,如果攻击者具有‘Rose位于数据集中第i行记录’的背景信息,则就泄露了他的患病信息。

数据集的类型

  • 静态数据集
  • 动态数据集
  • 协同数据集

隐私保护技术最常用的基本方法

  • 泛化:用元素的特定区间替换元组中的特定值。由于泛化保留了语义含义,因此具有比扰动更少的信息损失。
  • 扰动:根据某种概率分布,将某些属性域的值替换为相同属性域的其他值。由于受扰动的信息不再是真实的信息,失真太多,可能会导致分析结果精度较差。但是对于数值型统计查询(如聚合查询)很有用,因为它可以保留原始数据的统计信息。而且基于差分隐私保护算法的扰动数据集能够达成最理想的隐私保护效果

针对攻击者背景知识建模的研究工作

  • (c, k)-safety 算法提出了一种描述对手背景知识的模型,从而能够对攻击威胁进行量化;并提出了一种保证攻击者无法在拥有不超过 k 的背景知识,且不超过概率 c 的条件下推断任何人的真实敏感属性的方法。
  • Privacy skyline 模型[14] 则使用逻辑表达式指定了三类攻击者可能拥有的背景知识:
    1)与目标个体直接关联的知识;
    2)与目标个体间接相关的知识(如目标人的朋友或亲属);
    3)具有相同敏感属性值的个体的知
    识。

猜你喜欢

转载自blog.csdn.net/weixin_42253964/article/details/107063737