论文参考:活动轨迹数据的挖掘与隐私保护研究

1.已有的隐私保护模型根据攻击者攻击方法的不同可以大致分成两类:
  • 匿名化的隐私保护模型:链接攻击(成员,属性,表),如果数据集能够抵御这三种攻击,则成功的匿名化了。
  • 无信息原则模型:它不关注用户与记录的对应,而是完成无信息原则的目标,即发布的数据集提供的攻击者背景知识以外的信息尽可能的少,攻击者在获取数据前后对用户隐私的推测概率之差尽可能的小。 如果攻击者的后验知识和先验知识相比,有了巨大的变化,则称用户的隐私受到了概率攻击。

数据上的挖掘和隐私保护存在相互影响和相互制衡的关系。

2.敏感信息的多样性和事件内部各种信息之间的关联使得隐私保护变得十分棘手。我们需要做的
  • 提出解决活动轨迹发布的隐私保护问题的一般框架。
  • 对攻击者模型和隐私要求进行必要的假设
  • 设计相应的隐私保护算法来抵御攻击
3.解决方案的三个步骤:
  • 给出问题的明确定义,包括对用户和攻击者做必要的假设以及参数设置。
  • 根据问题定义设计满足隐私要求的保护算法,并尽可能的保留数据的效用。
  • 最后,根据实际应用场景得到进行参数调整,得到隐私要求和效用函数的关系。
4.相关工作

隐私保护方法:
1.基于划分的:

  • 一般对攻击者的背景知识有所假设。

    • k-匿名
    • (k,δ)匿名:δ表示误差范围。
    • LKC-隐私模型:保证了每个长度不超过L的子序列都至少包含K条记录,并推测敏感信息的置信概率不超过阈值C。
    • 局部抑制法来提高数据可用性
  • 对攻击者的背景知识做更强的假设,假设攻击者知道隐私保护算法。

    • L-多样性
    • m-机密性
      2.基于差分隐私的保护方法:对攻击者的背景知识不敏感,有证明严谨的优点。

时间和活动都有可能称为用户的隐私。数据之间具有转移依赖特性。已有的算法大多没有做攻击者可以利用数据转移推测用户隐私这一假设。

例如:某个用户经常坐公交车去一家医院,坐公交车和去医院存在时间上的先后顺序,即使将医院的信息隐去,攻击者可以通过做公交车这一点推测用户正在前往医院。所以仅仅将敏感信息隐藏起来是不够的。

已有研究对攻击者的背景知识的假设大多不包括隐私保护机制,而隐私保护机制本身也可能造成隐私的泄露。例如员工上班打游戏是不想被老板知道的隐私,如果保护机制是将打游戏的记录隐去,那么老板一旦知道了这个规则,就可以推出数据中缺失的部分就是员工打游戏的记录。

用户的行为特征和攻击行为都会对数据隐私的保护产生影响,因此,需要对用户和攻击者的行为进行建模。称为用户模型和攻击者模型。
既希望隐私保护程度可以量化,数据的价值还可以提高。

每个人对隐私的界定都不同,因此应该在用户模型中为每个用户安排一个敏感信息合集S,S可由用户指定,也可由数据发布者决定。

对攻击者做如下假设

  • 攻击者可以获取到发布的所有用户数据。数据的接收者可能就是攻击者。
  • 攻击者了解用户的行为特征。在日常生活中,我们的行为习惯很可能被亲人或好友得知,这些人可能称为潜在的攻击者。
  • 攻击者了解隐私保护机制。即攻击者知道算法的具体细节和对数据的匿名化规则。大部分相关工作没有对攻击者做该假设。在一个有效的隐私保护算法被广泛应用后,势必会被潜在的攻击者加以研究。如果能在攻击者掌握隐私保护机制的情况下还能使得用户的隐私不被泄露,那么这样的算法显然是更加鲁棒的。
  • 攻击者通过贝叶斯的方法对用户隐私进行推测。攻击者在获得数据前,会计算用户的敏感信息的先验概率。在观察到发布数据之后,攻击者会更新他的推测,得到用户敏感信息的后验概率。两者之差即为攻击者知识的增加。
  • 攻击者还会利用数据的相关性来推测隐私信息。这里的相关性包括了记录与记录之间的关联(外部依赖),和一条记录内部不同信息之间的关联(内部依赖)。

隐私要求:
传统的k-匿名和l-多样性标准不适合于活动轨迹,这里采用无信息原则隐私模型。该模型并不着眼于具体的记录是否被攻击者获得,而是关心攻击者在获取数据前后对敏感信息的概率信念是否发生了变化。非形式地,如果攻击者在获取到用户u的数据前后所掌握的知识并没有增加,则说u的隐私被保护了。换句话说,隐私保护要求攻击者对用户敏感信息推测的后验概率不大于先验概率。然而,这在实际中,是不可能达到的,只能试图让攻击者推测用户敏感信息的后验概率与先验概率之差尽可能的小。

为此设置一个参数δ,只要先验概率和后验概率之差不大于δ,则隐私得到了保护。

扩展了【96】中δ-隐私的定义,使得敏感信息可以是地点、时间或者活动中的一种。
在这里插入图片描述

给定一个用户u,一个满足δ-隐私的算法会对活动轨迹上的每个事件或事件中的信息进行检查,并作出发布或者隐藏的决定。如果发布,则输出用户的真实数据,如果隐藏,则置为空或其他缺省值。

使得发布的数据满足δ-隐私可以有两种方法:
一是遍历活动轨迹上所有事件,根据已发布的序列来决定当前数据能否发布。
二是将输出序列作为一个整体考虑,为每个事件安排一个发布的概率。使得按此概率输出的所有可能序列都满足δ-隐私。

定义一个效用函数:真实数据所占比例的期望值。之后会在实验部分根据不同的隐私保护算法将效用函数的定义进一步细化。
在这里插入图片描述
整个过程,先确定参数,用户模型M,隐私要求δ,敏感信息集合S,之后遍历输入的活动轨迹上的每一个事件,检查发布该事件的每个分量是否会破坏隐私,通过内部检查和外部检查来检查隐私是否会通过外部依赖和内部依赖泄露。当两种都满足δ时,才发布。内部依赖,引入频繁模式挖掘中的‘支持度’和置信度的概念对条件概率加以定义。

通过使用历史数据训练出一个用户模型(马尔可夫模型):认为下一活动只取决于当前活动。这个信息结合背景知识会泄露隐私。可分别创建活动,时间状态转移链,会有状态转移概率。还要先预定义敏感信息集S,δ,然后遍历,检查每个事件是否会导致外部泄露

所谓的内部依赖即攻击者通过某个事件内部己经发布的信息来推测未知信息的条件
概率

活动轨迹上的用户行为建模。

用户的行为建模是指根据用户历史数据,建立模型理解用户行为并挖掘其中的内在规律。 用户行为建模研究目标是发现和识别活动轨迹的规律性和行为模式。使用的方法也是多种多样,如马尔可夫模型,决策树,关联规则,非线性时序分析等等。它是轨迹数据上其他挖掘任务的基础。(感觉有点像过程挖掘的模型)活动轨迹与传统的移动数据相比,除了时间和地点信息外,通常还包含了丰富的活动信息,以及用户个人的属性信息。这些信息有助于更好地理解用户的行为

行为模型:基于马尔可夫链的行为模型。将用户的信息直接作为状态,捕捉用户行为的转移。

该模型充分挖掘了用户数据,不仅考虑了用户行为背后的状态和状态转移,还考虑了不同用户行为的共性,以及用户属性信息对行为的影响。

行为模型的好坏决定了位置预测算法的性能。另一方面,也可能成为攻击者获取用户敏感信息先验知识的手段(理解人们的日常行为),需要在设计隐私保护机制时加以考虑。

数据发布模型

数据拥有者,数据发布者,数据接收者。
如医院会对病人的数据加以收集,然后提供给附近的医疗中心做分析。医疗中心的分析可能仅仅是统计患有某种疾病的人数,也可能是复杂聚类分析等。在这个例子中,病人是数据的拥有者,医院是数据发布者,医疗中心则是数据接收者。(过程挖掘也是这样

从用户数据的隐私角度来讲,数据发布者本身可能是可靠的,也可能不可靠,由此,对应两个数据发布者模型:可信模型,不可信模型(可采取加密措施或者借助统计模型)。一般采取可信模型。

活动轨迹数据的隐私保护:从用户模型攻击者模型隐私要求数据质量四个方面明确定义了问题。基于两个用户模型,提出了两个数据发布算法。并且证明了两个算法满足隐私要求且在一定程度上能使数据质量最优。


该隐私保护机制是建立在用户的行为模型之上的,用户的行为模型可能成为攻击者获取用户敏感信息先验知识的手段。(将先验知识表达出来)

一.要有用户行为模型
二.要先定义敏感信息集,算的概率都是在敏感信息出现的地方。敏感信息可以是任何属性,比如活动。

基于马尔可夫链的用户模型

马尔科夫链是一个用来描述随机变化系统的经典统计模型。在马尔科夫链中,下一个状态只取决于当前状态,而与过去的状态序列无关。马尔可夫性质:
在这里插入图片描述

单马尔可夫链模型SMC-AT

将用户的每一个事件作为一个整体,
在这里插入图片描述
SMC-AT需要估计的参数是一步转移概率,即马尔可夫性质的右等式。这个分布可以通过极大似然估计MLE(用来估计一个概率模型的参数的一种方法。)来获得:
在这里插入图片描述
在这里插入图片描述

多马尔科夫链模型

不把事件作为一个整体,而是为事件中的时间,活动,地点分别构造一个马尔可夫链
在这里插入图片描述
其中需要学习的参数是每一条链各自的一步转移概率,这个分布类似地可通过MLE学习得到。

可不可以在隐私问题中关联上下文,以及知道隐私保护机制的假设

敏感信息集可以是事件中的任何一项信息,即
在这里插入图片描述

先验概率

在这里插入图片描述

后验概率

猜你喜欢

转载自blog.csdn.net/weixin_42253964/article/details/106962999