Re-thinking Model Inversion Attacks Against Deep Neural Networks

公众号：EDPJ

2. SOTA MI攻击的总体框架

3. 仔细观察模型反转攻击

3.1 改进的 MI 身份丢失公式

3.2 克服 SOTA 方法中的 MI 过度拟合

0. 摘要

模型反演 (Model inversion，MI) 攻击旨在通过滥用对模型的访问来推断和重建私有训练数据。 MI 攻击引发了对敏感信息泄露的担忧（例如，用于训练人脸识别系统的私人人脸图像）。最近，已经提出了几种用于 MI 的算法来提高攻击性能。在这项工作中，我们重新审视 MI，研究与所有最先进 (SOTA) MI 算法相关的两个基本问题，并针对这些问题提出解决方案，从而显着提高所有 SOTA MI 的攻击性能。特别是，我们的贡献有两个方面：1）我们分析了 SOTA MI 算法的优化目标，认为该目标对于实现 MI 是次优的，并提出了一个改进的优化目标，可以显着提高攻击性能。 2）我们分析了“MI 过度拟合”，表明它会阻止重建图像学习训练数据的语义，并提出了一种新颖的“模型增强”思想来克服这个问题。我们提出的解决方案很简单，可以显着提高所有 SOTA MI 攻击的准确性。例如，在标准的 CelebA 基准测试中，我们的解决方案将准确率提高了 11.8%，并首次实现了超过 90% 的攻击准确率。我们的研究结果表明，存在从深度学习模型中泄露敏感信息的明显风险。我们敦促认真考虑对隐私的影响。

1. 简介

深度神经网络 (DNN) 的隐私最近引起了相当大的关注。如今，DNN 被应用于许多涉及私有和敏感数据集的领域，例如医疗保健和安全领域。人们越来越关注隐私攻击，以获取用于训练 DNN 的机密数据集的知识。隐私攻击的一个重要类别是模型反转 (MI)。如果可以访问模型，MI 攻击旨在推断和重建模型训练中使用的私有数据集的特征。例如，恶意用户可能会攻击人脸识别系统以重建训练中使用的敏感人脸图像。与之前的工作类似，我们将使用人脸识别模型作为运行示例。

相关工作。 MI 攻击首先在 [12] 中被引入，其中简单线性回归是攻击的目标。最近，有相当多的兴趣将 MI 扩展到复杂的 DNN。大多数这些攻击都集中在白盒设置上，并且假设攻击者完全了解受攻击的模型。由于许多平台为用户提供完整训练 DNN 的下载，白盒攻击很重要。

生成模型反转 (GMI) 攻击利用通用公共信息通过生成对抗网络 (GAN) 学习分布先验，并且此先验用于指导私有训练样本的重建。
知识丰富的分布模型反演（KEDMI）通过利用目标模型提供的知识来训练反演特定的 GAN。
变分模型反演 (VMI) 对 MI 的概率解释引导攻击的变分目标。
KEDMI 和 VMI 实现了 SOTA 攻击性能（有关相关工作的进一步讨论，请参见补充）。

在本文中，我们重新审视 SOTA MI，研究与所有 SOTA MI 相关的两个问题，并针对这些问题提出互补且适用于所有 SOTA MI 的解决方案。特别是，尽管最近的工作中提出了一系列方法，但所有这些方法的共同点和核心是一个反演步骤，它将训练样本的重建制定为优化。反演步骤中的优化目标涉及身份损失，这对所有 SOTA MI 都是相同的，并且被表述为被攻击模型下重建样本的负对数似然。虽然已经提出了推进 MI 其他方面的想法，但尚未研究身份丢失的有效设计。

图 1. 概述和我们的贡献。

① 我们考虑了模型反转（MI）攻击的问题，以根据模型参数重建私有训练数据。我们的工作对 MI 攻击做出了两个基础贡献。
② 首先，我们分析了现有 SOTA MI 算法的优化目标，并表明它们是次优的。此外，我们提出了一个改进的优化目标，可以显着提高 MI 攻击性能（第 3.1 节）。
③ 其次，我们形式化了“MI 过度拟合”的概念，表明它阻止重建图像学习训练数据的身份语义。此外，我们提出了一种新颖的“模型增强”想法来克服这个问题（第 3.2 节）。
④ 我们提出的方法显着提高了 MI 攻击的准确性。例如。在标准的 CelebA 基准测试中，我们的方法将攻击准确率提高了 11.8%，在当代 MI 文献中首次达到 90% 以上的攻击准确率。

2. SOTA MI攻击的总体框架

问题设置。在 MI 中，攻击者滥用对在私有数据集 D_priv 上训练的模型 M 的访问权限。攻击者可以访问 M，但 D_priv 不共享。 MI 的目标是推断有关 D_priv 中私有样本的信息。在现有工作中，对于所需的类别（标签）y，MI 被表述为输入 x 的重建，该输入 x 最有可能被模型 M 分类为 y。例如，如果问题涉及反演面部识别模型，给定所需身份，MI 被表述为最有可能被识别为所需身份的面部图像的重建。受到 MI 攻击的模型称为目标模型。继之前的工作之后，我们专注于白盒 MI 攻击，假设攻击者可以完全访问目标模型。对于人脸图像等高维数据，这个重建问题是病态的。因此，最近提出了各种 SOTA MI 方法来使用 GAN 将搜索空间限制在有意义和相关图像的流形上：使用在某些公共数据集 D_pub 上训练的 GAN，使用特定于反演的 GAN，并在 GAN 的隐空间中定义变分推断（variational inference）。

尽管各种 SOTA MI 存在差异，但所有这些方法的共同点和核心是反演，称为 secret revelation，它执行以下优化：

L_id 是 identity loss，它指导重建最有可能被模型 M 识别为 identity y 的 x = G(z)，L_prior是一些先验损失，q*(z) 是 GAN 用于生成反演样本的隐编码的最优分布 (x = G(z); z ∼ q*(z))。重要的是，所有 SOTA MI 方法都使用相同的身份损失 L_id(z; y,M)，尽管它们对 q(z) 和先验损失 L_prior 有不同的假设（有关每种算法的更多详细信息，请参见表 1 和补充）。

虽然通过改进 q(z) 和 L_prior 观察到了进步，但在所有 SOTA MI 算法中都没有注意到更有效的 L_id 设计。因此，我们的工作转而关注 L_id，分析问题，并提出 L_id 的改进建议，这可以提高所有 SOTA MI 的性能。为了简化符号，我们在适当的时候用 L_id(x; y) 表示 L_id(z; y,M)，其中 x = G(z) 是重建图像。

3. 仔细观察模型反转攻击

3.1 改进的 MI 身份丢失公式

在本节中，我们将讨论我们的第一个贡献，并仔细研究身份 loss 的优化目标 L_id(x; y)。现有的 SOTA MI 方法，即 GMI、KEDMI 和 VMI 将身份损失制定为优化，以最小化模型参数下身份的负对数似然（即交叉熵损失）。特别是，等式 1 中引入的 L_id(x; y) 对于反转目标类 k 可以重写如下：

其中 p 表示样本 x 的倒数第二层激活，w_i 表示目标模型 M 中第 i 个类别的最后一层权重。

SOTA MI 方法中使用的现有身份损失（等式 2）对于 MI 来说不是最优的。虽然等式 2 中的优化准确地抓住了分类问题的本质（例如人脸识别），我们假设这种公式对于 MI 是次优的。我们通过倒数第二层激活 p 提供我们的直觉。在分类设置中，对 p 的主要期望是对类别 k 具有足够的辨别力（例如，在“Peter”、“Simon”和“David”之间识别）。这个目标可以通过在等式 2 中最大化分子和/或最小化等式中的求和项来实现。与分类相反，MI的目标是重建训练数据。也就是说，除了 p 对类 k 有足够的辨别力外，成功的反演还需要 p 接近 w_k 表示的类 k 的训练数据 representations（即，针对“Simon”的反演需要重建接近私有的样本 'Simon' 的训练数据。具体来说，我们认为与最小化等式 2 中的求和项相比，MI 需要更多地关注最大化分子。

受此假设的启发，我们进行了一项分析，以使用倒数第二层 representations 来研究 SOTA MI 方法中私有训练数据和重建数据之间的接近度。特别是，我们使用 KEDMI (SOTA) 的分析显示了几个实例，这些使用等式 2 作为身份损失的实例无法重建接近私有训练数据的数据。我们在图 2（顶行）中展示了这一点。因此，我们的分析促使人们寻找一种改进的身份损失，重点是最大化 MI 的分子 exp(pTwk)。

Logit Maximization 作为改进的 MI 身份损失。根据我们上面的分析/观察，我们建议直接最大化 logit，pTwk，而不是最大化 MI 类别 k 的对数似然。我们提出的身份损失目标如下所示：

其中 λ(> 0) 是超参数，p_reg 用于正则化 p。特别是，如果等式 3 中的正则化被省略，因此 ||p|| 是无界的，一种粗略的简化方法来解决等式 3 是最大化 ||p||。因此，我们使用 p_reg 来正则化 p。鉴于攻击者无法访问私有训练数据，我们通过使用公共数据的简单方法来估计 p_reg（见补充）。我们注意到 p = M^pen (x)，其中 x = G(z) 和 M^pen (·) 运算符返回给定输入的倒数第二层representations。

我们的分析表明，与 SOTA MI 算法中使用的现有身份损失相比，我们提出的身份损失（公式 3）可以显着改善私有训练数据的重建。使用倒数第二层 representations 和图 2（底行）中的 KNN 距离可以清楚地观察到这一点。这里的 KNN Dist 是指从重建图像到给定身份的私人训练图像的最短欧几里德特征距离。我们提出的损失（等式 3）可以很容易地插入到所有现有的 SOTA MI 算法中，方法是将等式 1 中的 L_id 替换为我们损失（等式 3），计算开销最小。

3.2 克服 SOTA 方法中的 MI 过度拟合

在本节中，我们将讨论我们的第二个贡献。特别是，我们将 MI 过度拟合的概念形式化，观察其在 SOTA MI 方法中的相当大的影响，并提出一个新的、简单的解决方案来克服这个问题。为了更好地讨论我们的 MI 过拟合概念，我们首先回顾机器学习中过拟合的传统概念：给定固定的训练数据集和我们学习模型的目标，通常，过拟合被定义为在模型学习（训练阶段）期间，模型过于贴近训练数据并拟合训练数据的随机变化和噪声，未能充分学习训练数据的语义。由于模型缺乏训练数据的语义，可以观察到模型在看不见的数据下表现不佳。

MI 中的过度拟合。我们形式化了 MI 中过度拟合的概念。给定固定（目标）模型和我们学习重建样本的目标，我们将 MI 过拟合定义为在模型反演期间，重建样本与目标模型太接近并适应目标模型参数的随机变化和噪声的实例，未能充分学习身份的语义。由于这些重建样本缺乏身份语义，可以观察到它们在另一个未见过的模型下表现不佳。

分析。接下来，我们将讨论我们的分析以证明 MI 过度拟合并了解其在 SOTA 中的影响。有关分析设置和结果，请参见上图。特别是，在上图的 ① 中，我们展示了一些重构样本，它们在目标模型 M 下实现了低身份损失，但它们缺乏身份语义。在上图的 ② 中，我们表明，对于 M 下具有低身份损失的目标模型 M 的相当一部分重建样本，它们在另一个未见模型 M' 下的身份损失很大，如散点图和直方图所示，暗示这些样本可能遭受 MI 过度拟合并且缺乏身份语义。我们注意到，在 M' 下的身份损失是通过在正向传播中将重构样本馈送到 M' 中获得的。我们还注意到，此分析中使用了 SOTA KEDMI，但问题也存在于 VMI 和 GMI 中。

我们针对 MI 过度拟合提出的解决方案。我们提出了一种基于模型增强的新颖解决方案。我们的想法受到模型训练和数据增强中传统的过度拟合问题的启发，作为缓解该问题的解决方案。特别是，对于传统的过度拟合，增加训练数据集可以缓解这个问题。因此，我们假设通过增强目标模型可以减轻 MI 过度拟合。

具体来说，我们建议应用知识蒸馏 (knowledge distillation，KD)，以目标模型 M_t 作为教师，训练增强模型 M_aug。重要的是，由于我们无法访问私有数据，因此在 KD 期间，每个 M_aug 都在公共数据集上进行训练，以将其输出与 M_t 的输出相匹配。我们为 M_aug 选择不同的网络架构，它们与 M_t 不同（补充中的详细讨论）。在执行 KD 之后，我们在反演步骤中将 M_aug 与目标模型 M_t 一起应用并计算身份损失：

其中，γ_t 和 γ_aug 是两个超参数，N_aug 是增强模型的数量。等式 4 中的 L^aug 用于在等式 1 的反演步骤中替换L_id。此外，我们在等式 3 中提出的 L^logit 可以用在等式 4 中结合改进。请参阅补充中的详细信息。

在上图的 ③ 中，我们分析了 M_aug 的性能。类似于使用未见过的模型 M'，我们观察到在 M_aug 下有大身份损失的样本，这表明 MI 过度拟合样本在 M_aug 下表现不佳，因为这些样本缺乏身份语义。（样本主要分布于图像的左下角，说明使用模型增强泛化良好）

4. 实验

4.1 实验设置

数据集。继之前的工作之后，我们在不同的任务上评估了所提出的方法：人脸识别和数字分类用于与所有三种 SOTA 方法进行比较，图像分类用于与 GMI 和 KEDMI 进行比较。对于人脸识别任务，我们使用包含名人图像的 CelebA 数据集和在背景、种族和年龄方面具有较大差异的 FFHQ 数据集。 MNIST 手写数字数据集用于数字分类。我们利用 CIFAR-10 数据集进行图像分类。

评估指标。为了评估 MI 攻击的性能，我们需要评估重建图像是否暴露了有关目标标签/身份的私人信息。在这项工作中，根据文献，我们通过目视检查进行定性评估，并使用不同的指标进行定量评估，包括：

攻击精度（Attack Acc）。我们使用一个评估模型来预测重建图像的标签/身份。与之前的工作类似，评估模型不同于目标模型（不同的结构/初始化种子），但它是在相同的私有数据集上训练的（见表 2）。直观地，考虑到一个高度准确的评估模型，它可以被视为人工检查的代理。因此，如果评估模型在重建图像上推断出高精度，则意味着这些图像暴露了有关私有数据集的私有信息，即攻击精度高。
K 近邻距离 (KNN Dist)。 KNN Dist 表示特定标签/id 的重建图像与私有训练数据集中相应图像之间的距离。更具体地说，它测量从重建图像到私有数据集中真实图像的最短特征距离，给定类/id。它被测量为特征空间中两个图像之间的 L2 距离，即评估模型的倒数第二层。

4.2 实验结果

对于每个基线设置，我们报告了 3 个变体的结果：

LOM（Logit 最大化，第 3.1 节），
MA（模型增强，第 3.2 节），
LOMMA（Logit 最大化 + 模型增强）。

从表 3 和表 4 中可以清楚地观察到，我们提出的方法在所有实验设置中显着提高了 MI 攻击的准确性，显示了我们提出的方法的有效性。此外，通过结合我们提出的两种方法，我们显着提高了攻击准确性。 KNN 结果还清楚地表明，与现有的 SOTA MI 算法相比，我们提出的方法能够重建接近私有训练数据的数据。特别是，我们在 IR152 目标分类器下将 KEDMI 基线攻击准确率提高了 12.4%。我们在 IR152 目标模型下展示了 KEDMI 的私有训练数据和重建样本，包括图 4 中的所有 3 个变体。我们注意到，在标准 CelebA 基准测试中，我们的方法显着提高了攻击准确性，从而实现了超过 90% 的攻击准确性（表 3) 这是目前 MI 文献中的首次。我们还在补充中给出了 CIFAR-10、MNIST 和其他结果。

跨数据集。我们进行了一系列实验来研究公共数据和私有数据之间的分布偏移（distribution shift）对攻击性能和 KNN 距离的影响。我们使用 FFHQ 作为公共数据集。特别是，我们使用 FFHQ 作为 CelebA 实验的公共数据。我们使用公共数据训练 GAN 模型和三个模型增强。我们注意到这样的设置紧密地复制了真实世界的 MI 攻击场景。我们在表 6 中报告了 IR152、face.evoLve 和 VGG16 目标分类器的前 1 准确度和 KNN 距离。众所周知，由于公共数据和私有数据之间的分布偏移，基线攻击性能会下降。但我们注意到，我们提出的方法始终如一地提高了基线 SOTA 攻击性能。即我们的方法将 IR152 目标模型的攻击准确率从 52.87% 提高到 77.27%。

SOTA 防御模型下的 MI。我们进一步评估了我们在 BiDOHSIC 提供的 SOTA MI 防御模型上的方法。具体来说，我们使用在 CelebA 数据集上训练的 BiDO-HSIC 提供的精确 GAN 和防御模型。然后，我们使用 D_pub 将知识从防御模型转移到 M_aug = {Efficientnet-B0, Efficientnet-B1, Efficientnet-B2}。使用 GMI 和 KEDMI 的结果如表 5 所示。我们观察到 SOTA 防御 BiDO-HSIC 对于我们提出的 MI 相当无效。

5. 讨论

结论。我们重新审视 SOTA MI 并研究与所有 SOTA MI 方法相关的两个问题。首先，我们分析了 SOTA 中现有的身份损失，并认为它对 MI 来说是次优的。我们提出了一种新的基于 logit 的身份损失，它更符合 MI 的目标。其次，我们将 MI 过度拟合的概念形式化，并表明它甚至在 SOTA 中也有相当大的影响。受传统数据增强的启发，我们提出了模型增强来减轻 MI 过度拟合。大量实验表明，我们的解决方案可以显着提高 SOTA，在标准基准下首次实现超过 90% 的攻击准确率。我们的发现强调了基于 MI 的威胁不断增加，并促使人们认真考虑机器学习的隐私。

局限性和伦理问题。我们在实验设置中遵循以前的工作。我们实验的规模与以前的工作相当。此外，将来可以考虑扩展我们的黑盒/仅标签攻击方法。虽然我们改进的 MI 方法如果被恶意用户使用可能会产生负面的社会影响，但我们的工作有助于提高人们对 DNN 隐私攻击的认识。

附录

C.3 计算 p_reg 的细节

鉴于攻击者无法访问私有训练数据，我们使用公共数据通过简单方法估计 p_reg。我们首先使用目标模型构建公共数据的倒数第二层特征集，并估计均值和方差：

其中 x_i 是来自公共数据集 D_pub 的样本，而 M^pen() 运算符返回给定输入 x 的目标模型 M_t 的倒数第二层表示。我们分析两种估计 p_reg 的方法如下：

固定 p_reg，其中 p_reg = μ_pen
p_reg 使用先验分布 N(μ_pen, σ_pen) 进行采样

根据经验，我们使用来自公共数据集 D_pub 的 N = 5000 张图像来估计 μ_pen 和 σ_pen。结果表明，使用从 N(μ_pen, σ_pen) 采样的 p_reg 比使用固定 p_reg = μ_pen 提供更好的性能（见表 10）。因此，主要论文中报告的所有结果都使用了 p_reg ∼ N(μ_pen, σ_pen)。

E. 其他相关工作

给定一个经过训练的模型，模型反演 (MI) 旨在提取有关训练数据的信息。

Fredrikson 等人提出了 MI 的第一种方法。作者发现攻击者可以使用 ML 模型提取有关患者的基因组和人口统计信息。
在 Fredrikson 等人的另一篇论文中，将问题扩展到面部识别设置，作者可以在其中恢复面部图像。
Yang 等人提出了对抗模型反演，它使用目标分类器作为编码器来产生预测向量。第二个网络将预测向量作为输入来重建数据。

最近的工作提出通过训练深度生成器来将搜索空间减少到隐空间，而不是直接在高维空间（例如图像空间）上执行 MI 攻击。特别是，生成器在与目标图像空间具有相似结构的辅助数据集上进行训练。

GMI 使用预训练的 GAN 来学习辅助数据集的图像结构，并通过生成器的隐向量找到反演图像。
Chen 等人通过训练判别器扩展 GMI 以区分真假样本并能够预测标签作为目标模型。此外，作者建议对潜在分布进行建模以减少反演时间并提高重建样本的质量。
VMI 为 MI 提供了概率解释，并提出了一个变分目标来近似目标数据的隐空间。

Zhao 等人建议嵌入模型解释的信息以进行模型反演。训练模型解释以分析和约束反演模型以学习有用的激活。另一种 MI 攻击类型称为仅标签（label-only） MI 攻击，攻击者仅在没有置信度的情况下访问预测的标签。最近，Kahla 等人建议估计到达目标类别质心的方向以进行 MI 攻击。

参考

Nguyen N B, Chandrasegaran K, Abdollahzadeh M, et al. Re-thinking Model Inversion Attacks Against Deep Neural Networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 16384-16393.

[12] Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page, and Thomas Ristenpart. Privacy in pharmacogenetics: An {End-to-End} case study of personalized warfarin dosing. In 23rd USENIX Security Symposium (USENIX Security 14), pages 17–32, 2014.

S. 总结

S.1 主要思想

本文的主要贡献有两点：SOTA 模型反演 (Model inversion，MI) 算法的优化目标是次优的，本文使用正则化改进了优化目标；2）“MI 过拟合”阻止重建图像学习训练数据的语义，本文提出基于知识蒸馏的“模型增强”来解决问题。

S.2 方法

使用正则化改进 MI 身份损失。当前的分类系统使用的身份 loss 的一部分如下所示：

其中 p 表示样本 x 的倒数第二层激活，w_i 表示目标模型 M 中第 i 个类别的最后一层权重。最小化该 loss 可以通过最大化分子或者最小化分母中的求和项来实现。不同于分类系统，除了 p 对类 k 有足够的辨别力外，成功的反演还需要 p 接近 w_k 表示的类 k 的训练数据 representations，即只通过最大化分子来实现。基于此，本文提出如下改进的身份 loss：

其中，p_reg 用于正则化 p，p_reg ∼ N(μ_pen, σ_pen)，μ_pen 和 σ_pen 分别是输入 x （来自于公共数据集）在目标模型 M_t 的倒数第二层 representation 的均值和方差。

使用模型增强解决 MI 过拟合。给定固定（目标）模型和学习重建样本的目标，MI 过拟合定义为在模型反演期间，重建样本与目标模型太接近并适应目标模型参数的随机变化和噪声的实例，未能充分学习身份的语义。由于这些重建样本缺乏身份语义，可以观察到它们在另一个未见过的模型下表现不佳。

为解决问题作者应用知识蒸馏 (knowledge distillation，KD)，以目标模型（被攻击的模型） M_t 作为教师，训练增强模型 M_aug。由于无法访问私有数据，因此在 KD 期间，每个 M_aug 都在公共数据集上进行训练，以将其输出与 M_t 的输出相匹配。完整 loss 表示如下：

其中，γ_t 和 γ_aug 是两个超参数，N_aug 是增强模型的数量。

（2023，正则化 & 模型增强）重新思考针对深度神经网络的模型反演攻击

0. 摘要

1. 简介

2. SOTA MI攻击的总体框架

3. 仔细观察模型反转攻击

3.1 改进的 MI 身份丢失公式

3.2 克服 SOTA 方法中的 MI 过度拟合

4. 实验

4.1 实验设置

4.2 实验结果

5. 讨论

附录

C.3 计算 p_reg 的细节

E. 其他相关工作

参考

S. 总结

S.1 主要思想

S.2 方法

猜你喜欢