An adversarial reinforcement learning based system for cyber security
0x01 摘要
提出来一种基于RL的系统,保护用户免受恶意流量的侵害。
生成网络攻击生成agent和网络防御agent,基于深度神经网络环境,超越传统的ML算法,可以检测对抗样本。
0x02 intro
基于DNN的方案容易被对抗样本日穿。
SVM和RL的方案对对抗样本检测性能不行。
贡献:
- 提出了一种全新的基于对抗性强化学习的网络安全入侵检测系统。
- 将经过训练的 CNN 作为攻击生成agent的交互环境,旨在生成对抗样本以击败经过训练的 CNN。
- 该系统可以胜过传统的深度神经网络并检测对抗样本。
0x03 系统模型
攻击生成系统和对抗性RL系统。
攻击生成系统:对练好的CNN生成对抗样本。
对抗性RL系统:为了避免训练结果相同,采用不同的训练算法。攻击生成agent在前期已经用DQN训练完成,能够日穿CNN;防御agent会给样本打分,使用DDPG训练。这样的话,攻击者放出来一个样本,防御者会进行判别。
一些想法:其实还是要正常和异常样本混着放,要不defense如果学会无脑判负的话就不好玩了。