Privacy Definitions - (alpha, beta)-privacy

如果对一个事件 $A$ 越确定，该事件的概率 $P (A)$ 就越大；对一个事件 $B$ 越不确定，则该事件的概率 $P (B)$ 就越小。通过事件 $A$ ，可以增大事件 $B$ 的确定性，也可能造成干扰降低对事件 $B$ 的确定性。
在隐私中，为了可能地保护隐私，应尽可能让攻击者在发布统计数据后对某个事件的确定性，和发布前对该事件的确定性相差不大。发布统计数据后对某个事件的确定性称为后验知识，发布前对该事件的确定性称为先验知识。如发布前事件A的概率为 $P (A) = 0.3$ ，发布统计数据 $R (A)$ 后，攻击者对事件A的概率确定性提高到了 $P (A ∣ R (A)) = 0.9$ ，那么在某种程度上泄漏了事件 $A$ 的隐私，不能够很好地保护隐私。

隐私上缺口（upward (alpha, beta)-privacy breach）

定义( $upward\ (\alpha,\beta)-privacy\ breach$ )：¹定义 $R$ 是输入为 $u\in D_{U}$ ,输出为 $v\in D_{V}$ 的算法。如果对于某个概率分布 $f$ ，存在一个预测器 $\phi$ ，有：
$\exists u\in D_u,\exists v\in D_v, s.t.\ P_{f}(\phi(u))\leq \alpha\ and\ P_{f}(\phi(u)|R(u)=v)\geq \beta,$
则称算法 $R$ 存在（ $\alpha,\beta$ ）隐私上缺口（upward (alpha, beta)-privacy breach）。

MARK：

算法 $R$ 可以简单理解为一个函数，定义域为 $D_U$ ，值域为 $D_V$ 。
算法 $R$ 可以认为是对数据（比如疾病）进行了处理后发布，一种常用的方式是加噪处理。
例：若 $\alpha=0.3,\beta=0.9$ ，若算法 $R$ 存在隐私上缺口，那么攻击者通过发布的信息得到了额外的知识，对 $u$ 能够更加准确的预测。

隐私下缺口（downward (alpha, beta)-privacy breach）

同样地可以定义隐私下缺口：
定义( $downward\ (\alpha,\beta)-privacy\ breach$ )：定义 $R$ 是输入为 $u\in D_{U}$ ,输出为 $v\in D_{V}$ 的算法。如果对于某个概率分布 $f$ ，存在一个预测器 $\phi$ ，有：
$\exists u\in D_u,\exists v\in D_v, s.t.\ P_{f}(\phi(u))\leq \beta\ and\ P_{f}(\phi(u)|R(u)=v)\geq \alpha,$
则称算法 $R$ 存在（ $\alpha,\beta$ ）隐私上缺口（upward (alpha, beta)-privacy breach）。

MARK：

注意 $\alpha,\beta$ 互换位置了；
例：若 $\alpha=0.05,\beta=0.6$ ，若算法 $R$ 存在隐私上缺口，那么攻击者通过发布的信息可以非常确定 $u$ 是不太可能出现的。

(alpha, beta)-privacy

定义：（ $(\alpha,\beta)-privacy$ ）.定义 $R$ 是输入为 $u\in D_{U}$ ,输出为 $v\in D_{V}$ 的一个算法。当 $R$ 不存在（ $\alpha,\beta$ ）隐私上缺口和（ $\alpha,\beta$ ）隐私下缺口时，称 $R$ 满足 $(\alpha, \beta)-privacy$ 。

MARK

该定义从算法的角度，而不是数据的角度定义了隐私；
该定义限制了攻击者在看到发布数据后，对任意事件确定性的变化，即概率差不超过 $\beta-\alpha$ 。

https://www.researchgate.net/publication/220626610_Privacy-Preserving_Data_Publishing ↩︎