【学习】机器学习的的可解释性、attacks in NLP


一、可解释性的机器学习

为什么我们需要可解释的ML?
法律要求贷款发放者解释他们的模式。医学诊断模式对人类生命负责。
会不会是黑匣子?
如果在法庭上使用模型,我们必须确保模型的行为不带有歧视性。如果自动驾驶汽车突然表现异常,我们需要解释原因。
我们可以改进基于解释的ML模型。

可解释的v.s .功能强大

有些模型在本质上是可以解释的。例如,线性模型(从权重,你知道特征的重要性)但不是很厉害。
深层网络难以解释。深层网络是黑盒…但是比线性模型更强大。
有没有一些模型同时具有可解释性和强大的功能?决策树怎么样?
在这里插入图片描述
在这里插入图片描述

1、目标

完全了解ML模型是如何工作的?我们并不完全知道大脑是如何工作的!但是我们相信人类的决定!
有理由的时候接收的更快:
在这里插入图片描述
两类可解释学习:
在这里插入图片描述
判断那个组件是决定性的:
在这里插入图片描述
挡住一部分图片之后,是否还能识别:
在这里插入图片描述
一个实例的损失e(模型输出和实际情况之间的差异),改变某个像素(+x),他们的比值相当于微分,比值组成的图就是saliency map,越白色比值越大,这个像素越重要。
在这里插入图片描述
但是它会把重点放在奇怪的地方:
在这里插入图片描述

限制:噪音梯度

SmoothGrad:在输入图像中随机加入噪声,得到含噪图像的显著图,并进行平均。
在这里插入图片描述
在这里插入图片描述
输入声音特征(MFCC)
在这里插入图片描述
机器能分辨同一句话不同人说。
attention有解释力。
在这里插入图片描述

probing

在这里插入图片描述
分类器的强度要注意,可能会训练坏。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
F1越大,表示图片特征越重要。
在这里插入图片描述
在这里插入图片描述
最终输出看到的数字:
在这里插入图片描述
机器可以分辨,但是人眼不行。
怎么看出是数字呢?加上一些限制
在这里插入图片描述
在这里插入图片描述
寻找X变成找z
在这里插入图片描述
在这里插入图片描述
用简单的模型模范复杂的NN模型:使用可解释的模型来模拟不可解释的模型的行为。然后分析简单模型。但是LM能力有限,只能解读一小段区域。
在这里插入图片描述

二、attacks in NLP

图片和语音是连续的:
在这里插入图片描述
文字是离散的:
在这里插入图片描述
为了将这些token输入模型,我们需要将每个token映射到一个连续的向量中
在这里插入图片描述
文本的离散性使得NLP中的攻击与CV或语音处理中的攻击非常不同
在这里插入图片描述

1、evasion attacks规避攻击

计算机视觉中的规避攻击
在图像上添加察觉不到的噪声会改变模型的预测(判断错误)
在这里插入图片描述
对于一项任务,修改输入,使模型的预测出错,而修改后的输入和原始输入不应改变对人类的预测
在这里插入图片描述
在这里插入图片描述

规避攻击:四个要素

1.目标:攻击的目的是什么
2.转换:如何为可能的对手构建扰动
3.约束:一个有效的对立例子应该满足什么
4.搜索方法:如何从满足约束和目标的转换中找到一个对立的例子
在这里插入图片描述

目标

untargeted classification:使模型对输入进行错误分类
在这里插入图片描述
targeted classification:将具有A类基本事实的样本分类到另一个B类
在这里插入图片描述
通用后缀删除器Universal suffix dropper:让翻译的句子删除一些后缀
在这里插入图片描述
在这里插入图片描述

transformations

如何扰乱文本来构建可能的对手
在这里插入图片描述
通过WordNet同义词进行单词替换
在这里插入图片描述
通过kNN或E-ball在counter-fitted glove embedding 空间中进行单词替换
在这里插入图片描述
反向匹配嵌入空间:使用语言约束拉近同义词,远离反义词
在这里插入图片描述
在这里插入图片描述
通过BERT掩蔽语言模型(MLM)预测进行单词替换
在这里插入图片描述
但是意思会差很多!
可以通过BERT重构进行单词替换(无屏蔽)
在这里插入图片描述
通过改变动词、名词和形容词的inflectional形式进行单词替换
inflectional语素:词缀从不改变一个词的基本意思,是词性(POS)的指示/特征。
在这里插入图片描述
通过单词嵌入的梯度进行单词替换
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这样会影响语义。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Raphael9900/article/details/128467214