如果对一个事件 A A A越确定,该事件的概率 P ( A ) P(A) P(A)就越大;对一个事件 B B B越不确定,则该事件的概率 P ( B ) P(B) P(B)就越小。通过事件 A A A,可以增大事件 B B B的确定性,也可能造成干扰降低对事件 B B B的确定性。
在隐私中,为了可能地保护隐私,应尽可能让攻击者在发布统计数据后对某个事件的确定性,和发布前对该事件的确定性相差不大。发布统计数据后对某个事件的确定性称为后验知识,发布前对该事件的确定性称为先验知识。如发布前事件A的概率为 P ( A ) = 0.3 P(A)=0.3 P(A)=0.3,发布统计数据 R ( A ) R(A) R(A)后,攻击者对事件A的概率确定性提高到了 P ( A ∣ R ( A ) ) = 0.9 P(A|R(A))=0.9 P(A∣R(A))=0.9,那么在某种程度上泄漏了事件 A A A的隐私,不能够很好地保护隐私。
隐私上缺口(upward (alpha, beta)-privacy breach)
定义( u p w a r d ( α , β ) − p r i v a c y b r e a c h upward\ (\alpha,\beta)-privacy\ breach upward (α,β)−privacy breach):1定义 R R R是输入为 u ∈ D U u\in D_{U} u∈DU,输出为 v ∈ D V v\in D_{V} v∈DV的算法。如果对于某个概率分布 f f f,存在一个预测器 ϕ \phi ϕ,有:
∃ u ∈ D u , ∃ v ∈ D v , s . t . P f ( ϕ ( u ) ) ≤ α a n d P f ( ϕ ( u ) ∣ R ( u ) = v ) ≥ β , \exists u\in D_u,\exists v\in D_v, s.t.\ P_{f}(\phi(u))\leq \alpha\ and\ P_{f}(\phi(u)|R(u)=v)\geq \beta, ∃u∈Du,∃v∈Dv,s.t. Pf(ϕ(u))≤α and Pf(ϕ(u)∣R(u)=v)≥β,
则称算法 R R R存在( α , β \alpha,\beta α,β)隐私上缺口(upward (alpha, beta)-privacy breach)。
MARK:
- 算法 R R R可以简单理解为一个函数,定义域为 D U D_U DU,值域为 D V D_V DV。
- 算法 R R R可以认为是对数据(比如疾病)进行了处理后发布,一种常用的方式是加噪处理。
- 例:若 α = 0.3 , β = 0.9 \alpha=0.3,\beta=0.9 α=0.3,β=0.9,若算法 R R R存在隐私上缺口,那么攻击者通过发布的信息得到了额外的知识,对 u u u能够更加准确的预测。
隐私下缺口(downward (alpha, beta)-privacy breach)
同样地可以定义隐私下缺口:
定义( d o w n w a r d ( α , β ) − p r i v a c y b r e a c h downward\ (\alpha,\beta)-privacy\ breach downward (α,β)−privacy breach):定义 R R R是输入为 u ∈ D U u\in D_{U} u∈DU,输出为 v ∈ D V v\in D_{V} v∈DV的算法。如果对于某个概率分布 f f f,存在一个预测器 ϕ \phi ϕ,有:
∃ u ∈ D u , ∃ v ∈ D v , s . t . P f ( ϕ ( u ) ) ≤ β a n d P f ( ϕ ( u ) ∣ R ( u ) = v ) ≥ α , \exists u\in D_u,\exists v\in D_v, s.t.\ P_{f}(\phi(u))\leq \beta\ and\ P_{f}(\phi(u)|R(u)=v)\geq \alpha, ∃u∈Du,∃v∈Dv,s.t. Pf(ϕ(u))≤β and Pf(ϕ(u)∣R(u)=v)≥α,
则称算法 R R R存在( α , β \alpha,\beta α,β)隐私上缺口(upward (alpha, beta)-privacy breach)。
MARK:
- 注意 α , β \alpha,\beta α,β互换位置了;
- 例:若 α = 0.05 , β = 0.6 \alpha=0.05,\beta=0.6 α=0.05,β=0.6,若算法 R R R存在隐私上缺口,那么攻击者通过发布的信息可以非常确定 u u u是不太可能出现的。
(alpha, beta)-privacy
定义:( ( α , β ) − p r i v a c y (\alpha,\beta)-privacy (α,β)−privacy).定义 R R R是输入为 u ∈ D U u\in D_{U} u∈DU,输出为 v ∈ D V v\in D_{V} v∈DV的一个算法。当 R R R不存在( α , β \alpha,\beta α,β)隐私上缺口和( α , β \alpha,\beta α,β)隐私下缺口时,称 R R R满足 ( α , β ) − p r i v a c y (\alpha, \beta)-privacy (α,β)−privacy。
MARK
- 该定义从算法的角度,而不是数据的角度定义了隐私;
- 该定义限制了攻击者在看到发布数据后,对任意事件确定性的变化,即概率差不超过 β − α \beta-\alpha β−α。
https://www.researchgate.net/publication/220626610_Privacy-Preserving_Data_Publishing ↩︎