Disposition des papiers sur les contre-attaques

Une partie du devis, s'il y a infraction, notifier pour supprimer.
Compréhension personnelle, si quelque chose ne va pas, veuillez me corriger.

Le concept de contre-attaque

En ajoutant délibérément des perturbations imperceptibles aux échantillons d'entrée dans l'ensemble de données, le modèle donne une sortie erronée.

Principe de la contre-attaque

  1. "Propriétés intrigantes des réseaux de neurones" (2013) [1]
    L'adresse source de l'article: http://de.arxiv.org/pdf/1312.6199
    Notes de référence: https://zhuanlan.zhihu.com/p/217683614?utm_source=qq
    Contribution papier:
    ① Ce qui transporte l'information sémantique dans un réseau de neurones n'est pas un seul neurone, mais l'espace représenté par l'ensemble du réseau (ou cette couche)
    La discontinuité de la cartographie d'entrée et de sortie causée par la non-linéarité du modèle de réseau neuronal profond, plus le surajustement causé par une moyenne insuffisante du modèle et une régularisation insuffisanteRend les contre-attaques possibles.
    ③Utilisation de L-BFGS pour générer une approximation
    des échantillons contradictoires Proposer que l'ajout d'échantillons contradictoires à l'ensemble d'entraînement peut améliorer la robustesse du modèle

  2. "Explaining And Harnessing Adversarial Examples" (2014) [2]
    Adresse de la source papier: http://de.arxiv.org/pdf/1412.6572
    Notes de référence: https://zhuanlan.zhihu.com/p/33875223
    Contribution papier:
    Linéaire dans un espace de grande dimensionIl suffit de créer des échantillons contradictoires La principale raison de la vulnérabilité des modèles profonds aux échantillons contradictoires est l'existence de sa partie linéaire. En transformant le modèle en un modèle RBF non linéaire, la vulnérabilité du modèle de réseau neuronal face aux attaques peut être réduite.
    ②La méthode des symboles à gradient rapide (FGSM) est proposée pour générer des échantillons contradictoires.③L'amélioration
    de la fonction objectif basée sur la méthode des symboles à gradient rapide permet d'obtenir un bon effet de régularisation

Méthodes de contre-attaque

Fonction de perte basée sur le modèle cible

  1. Articles
    liés au L-BFGS : "Intriguing properties of neural networks" (2013) [1]
    Notes de référence: https://zhuanlan.zhihu.com/p/217683614?utm_source=qq
    Algorithm core: algorithme d'optimisation L-BFGS via quasi-Newton Minimiser la perturbation r sous la contrainte box et ajouter la perturbation r après l'attaqueCatégorie cible lLa fonction de perte sur génère une perturbation minimale approximative
    Insérez la description de l'image ici
  2. FGSM ——> IFGSM (également appelé BIM), ILCM ——> Documents
    liés à R + FGSM : FGSM: "Explaining And Harnessing Adversarial Examples" (2014) [2]
    IFGSM (également appelé BIM), ILCM: "Adversarial examples in the Monde physique "(2016)
    R + FGSM:" Ensemble Adversarial Training: Attacks and Defenses "(2017)
    Source de l'article: FGSM: http://de.arxiv.org/pdf/1412.6572
    IFGSM (également appelé BIM), ILCM: http://arxiv.org/pdf/1607.02533
    Notes de référence: FGSM: https://zhuanlan.zhihu.com/p/33875223:
    IFGSM (également appelé BIM), ILCM: https://www.jianshu.com/p / 2f3b15617236
    Mes notes: Notation de gradient rapide (FGSM) et son amélioration

Noyau de l'algorithme:
FGSM: Ajouter une certaine perturbation (contrôlée par ε) au signe de direction du gradient (▽ J (θ, x, y)) où la fonction de perte augmente.
Insérez la description de l'image ici
IFGSM: générer de manière itérative des échantillons contradictoires en plusieurs étapes, et l'effet d'attaque est meilleur , Moins de perturbation
Insérez la description de l'image ici
R + FGSM: l'auteur a réussiRemplacez le intégré par la sortie de l'attaque en une seule étapeMaximiser la solution du problème pour approcher l'équation, le coût de calcul de la génération d'échantillons contradictoires est plus petit et il peut être étendu à de grands ensembles de données pour l'entraînement contradictoire
Insérez la description de l'image ici

Structure de réseau basée sur le modèle cible

  1. Article lié à JSMA (Jacobian Saliency Map Attack)
    : "The limitations of deep learning in adversarial settings" (2015)
    Source du papier: http://lanl.arxiv.org/pdf/1511.07528.pdf
    Notes de référence: https: // blog .csdn.net / qq_36415775 / article / details / 89205794
    Code associé: https://github.com/gongzhitaao/tensorflow-adversarial/tree/master/example
    Algorithme core: utiliser la carte de saillance jacobienne pour guider itérativement la structure du réseau Ajouter une perturbation au pixel avec le plus grand nombre (plus la dérivée est grande, plus le changement de la valeur y est important)

  2. DeepFool ——>
    Documents relatifs aux perturbations contradictoires universelles : "DeepFool: une méthode simple et précise pour tromper les réseaux de neurones profonds" (2016_CVPR)
    "Universal Adversarial Perturbations" (2017_IEEE)
    Adresse de la source papier: DeepFool: https: //www.cv-foundation .org / openaccess / content_cvpr_2016 / app / S12-10.pdf
    Perturbations contradictoires universelles: https://arxiv.org/pdf/1610.08401v3.pdf
    Notes de référence: https://www.dazhuanlan.com/2019/12/09 / 5dee1b61a6844 /
    Code associé: https://github.com/LTS4/universal
    algorithme core:
    DeepFool: par le calculLa distance minimale entre l'échantillon et l'hyperplan de classificationGénérer la plus petite perturbation
    Insérez la description de l'image ici
    Perturbations contradictoires universelles: grâce à une accumulation multiple de perturbations, trouvez la perturbation la plus universelle (peut perturber une variété d'images)
    Perturbations conflictuelles universelles

  3. Article
    lié à One Pixel Attack : "One Pixel Attack for Fooling Deep Neural Networks" (2017)
    Adresse source du papier: https://arxiv.org/abs/1710.08864
    Code associé: https://github.com/Hyperparticle/one-pixel Notes de
    référence -attack-keras :
    noyau de l'algorithme: passéÉvolution différentielleL'algorithme d'optimisation limite le nombre de pixels qui peuvent être modifiés pour maximiser la probabilité que l'échantillon contradictoire soit divisé en l'étiquette contradictoire pour générer une perturbation e (x)
    Insérez la description de l'image ici

  4. Article connexe de C&W (The Carlini et Wagner)
    : «Towards evaluating the robustness of neural networks» (2017.3)
    Adresse source du papier: http://arxiv.org/abs/1608.04644v1
    Code associé: https://github.com/carlini / nn_robust_attacks
    notes de référence: https://zhuanlan.zhihu.com/p/266726084
    Algorithme core: le plus incompréhensible, en particulier la conversion de C (x + r) = t en f (x + r) <= 0 Le problème n'est pas compris

Prédire la probabilité en fonction du modèle cible

Prédire les résultats en fonction du modèle cible

  1. Boundary Attack Related
    paper: «Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machi» (2018)
    Adresse de la source du papier: https://arxiv.org/pdf/1712.04248.pdf
    Code associé: https://github.com / greentfrapp /
    notes de référence sur les attaques aux limites : https://zhuanlan.zhihu.com/p/67320040
    Noyau de l'algorithme : ①Initialisation d' échantillons contradictoires: initialisation aléatoire pour les attaques non ciblées et les attaques cibles sont initialisées en tant qu'images cibles ②les échantillons
    changent progressivement depuis l'initialisation L'échantillon d'origine est proche de
    Attaque de frontière

Défense contradictoire

  1. Entraînement
    contradictoire : les défenseurs construisent eux-mêmes des attaques adverses et ajoutent des échantillons contradictoires avec une perturbation artificiellement accrue aux données d'entraînement, améliorant ainsi l'ensemble d'entraînement et rendant le modèle obtenu après l'entraînement plus stable.
    Articles connexes:
    ① «Propriétés intrigantes des réseaux de neurones» (2014)

② «Ensemble Adversarial Training: Attacks and Defenses» (2017): Proposer une formation antagoniste intégrée.
Notes de référence: https://www.cnblogs.com/gris3/p/12688506.html

Questions sur cette méthode:
«Vers des modèles d'apprentissage profond résistants aux attaques adverses» a
mentionné que des attaques plus faibles sont utilisées pour l'entraînement contradictoire , mais cela n'augmente souvent pas la robustesse du modèle face aux attaques plus fortes.

  1. Articles
    liés à la détection des échantillons
    contradictoires : ① «Méthodes précoces pour détecter les images contradictoires» (2017)
    ② «La compression des fonctionnalités atténue et détecte les exemples contradictoires de Carlini / Wagner» (2017)
    ③ «Squeezing des fonctionnalités: détection des exemples contradictoires dans les réseaux de neurones profonds» (2018)

L'adresse source de l'article: ①https: //openreview.net/pdf? Id = B1dexpDug

Code pertinent: ①https: //github.com/hendrycks/fooling a
remis en question la méthode:
① «Les exemples contradictoires ne sont pas facilement détectés: contournement de dix méthodes de détection» (2017)
Adresse de la source papier: http://arxiv.org/ pdf / 1705.07263

  1. Restauration anti-échantillon et débruitage
    Articles connexes:
    ① «Défense contre les attaques adverses à l'aide d'un denoiser guidé par représentation de haut niveau»
    , adresse source: http://arxiv.org/pdf/1712.02976
    ② «ComDefend: un modèle efficace de compression d'image pour défendre l'adversaire Exemples"


  2. Distillation par dissimulation de gradient : articles
    associés①
    «La distillation comme défense contre les perturbations adverses contre les réseaux de neurones profonds» (2016.3)
    Cette méthode complète l'amélioration de la stabilité du modèle en deux étapes: la première étape consiste à former le modèle de classification, et la dernière couche de La couche softmax est divisée par une constante T; la deuxième étape consiste à entraîner le deuxième modèle avec la même entrée, mais l'étiquette des données d'apprentissage n'est pas l'étiquette d'origine, mais le vecteur de probabilité de la dernière couche du modèle entraîné à la première étape est utilisé comme softmax final Le but de la couche.
    ② "Extension de la distillation défensive" (2017.5)

Questions sur cette méthode:
«Les dégradés obscurcis donnent un faux sentiment de sécurité: contourner les défenses contre des exemples contradictoires»
Le document mentionne qu'un phénomène de «gradient obscurci» a été découvert, ce qui apporte une défense contre les échantillons Faux sentiment de sécurité. Dans l'étude de cas, j'ai testé 8 articles reçus par ICLR 2018 et j'ai trouvé que le gradient de confusion est un phénomène courant. Parmi eux, 7 articles se sont appuyés sur le gradient de confusion et ont été surmontés avec succès par cette nouvelle technique d'attaque.

  1. Systèmes de détection: (Ajouter un système de détection supplémentaire devant le modèle de réseau cible pour déterminer si l'entrée est un échantillon contradictoire qui a été artificiellement perturbé)
    ①Effectuer des tests statistiques: «Sur la détection (statistique) d'exemples contradictoires» (2017.2)
    ②Utiliser un modèle supplémentaire pour détection: «Les données
    contradictoires et propres ne sont pas des jumeaux» (2017.4) ③ «Sur la détection des perturbations contradictoires» (2017.2)
    ④Appliquer un abandon au moment du test: «Détecter des échantillons contradictoires à partir d'artefacts» (2017.3)

  2. Prétraitement
    ①Ajoutez une couche de randomisation: «Atténuer les effets adverses grâce à la randomisation» (2017)

  3. Utilisation du GAN
    ①Generative Adversarial Networks (GAN): "Generative Adversarial Trainer Defense to Adversarial Perturbations with GAN" (2017.5)
    ② "AE-GAN: adversarial éliminating with GAN" (2017.7)
    Notes sur le papier: (https://www.zybuluo.com / wuxin1994 / note / 881171)

    Notes sur le papier «Efficient Defenses Against Adversarial Attacks» (2017.7) : (https://www.zybuluo.com/wuxin1994/note/863551)

Exemple de contre-attaque

  1. Confronting image patches
    Articles connexes: "Adversarial Patch"
    Adresse source du papier: https://link.zhihu.com/?target=http%3A//arxiv.org/abs/1712.09665
    Contribution papier: Proposer une création dans le monde réel Méthode universelle, robuste et ciblée pour lutter contre les correctifs d'image

  2. Article
    lié à la reconnaissance d'objets : "Attaque adversaire physique robuste sur le détecteur d'objet R-CNN plus rapide"
    , adresse source du papier: https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1804.05810

  3. 《Accessoiriser un crime: attaques réelles et furtives sur la reconnaissance faciale de pointe》 (2016.10)
    面部 识别 :

  4. "Exemples contradictoires dans le monde physique" (2017.2)
    Photos réelles prises:
    Cet article est dans des applications pratiques. Les attaques contradictoires ne peuvent souvent pas utiliser des exemples contradictoires numériques comme données d'entrée du classificateur cible et ne peuvent imprimer les exemples contradictoires que sur papier. Ensuite, lorsque l'entrée du réseau de destination est obtenue en prenant des photos ou autres, la perturbation ajoutée artificiellement est relativement faible et une distorsion est générée lors de la prise de photos, ce qui ne peut pas atteindre le but de l'attaque.

  5. 《Attaques robustes du monde physique sur les modèles d'apprentissage automatique》 (2017.7)

  6. 《Remarque sur les détecteurs d'objets d'attaque avec des autocollants contradictoires》

  7. 《Problèmes concrets pour la sécurité des véhicules autonomes: avantages de l'apprentissage profond bayésien》 (2017)

Voiture automatique:

  1. 《Perturbations adverses contre les réseaux de neurones profonds pour la classification des logiciels malveillants》 (2016.6)

Notes de papier: (https://www.zybuluo.com/wuxin1994/note/854417)

  1. 《Génération d'exemples de logiciels malveillants contradictoires pour les attaques de type boîte noire basées sur le GAN

Notes papier: (https://www.zybuluo.com/wuxin1994/note/867495)

  1. 《Synthétiser de
    solides exemples contradictoires 3D 打印 :

[1]: Szegedy C, Zaremba W, Sutskever I, et al. Propriétés intrigantes des réseaux de neurones. arXiv preprint arXiv: 1312.6199, 2013.
[2]: Goodfellow, Ian J., Jonathon Shlens et Christian Szegedy. «Expliquer et exploiter des exemples contradictoires.» préimpression arXiv arXiv: 1412.6572 (2014).
[3]: https://mermaidjs.github.io/
[4]: http://adrai.github.io/flowchart.js/

Je suppose que tu aimes

Origine blog.csdn.net/qq_36488756/article/details/109190274
conseillé
Classement