NLPを攻撃し、分析のためのユニバーサル敵対トリガー|論文は読みます

[コード] [ブログ]

主なアイデアと貢献

以前は、一般的にNLPが攻撃に反対している、そして、彼らは入ることは、特定の入力のために有効なのですか?

本明細書で検索トリガ一般的な拮抗作用:独立した入力トークン列を有するデータセット、トークンシーケンスモデル生成トリガーからの入力に接続され、特定の予測。 

例えば、トリガーリードSNLI暗黙の精度がSQUADはむしろGPSでは-2言語でも非民族的背景で出力モデルになります「アメリカ人を殺す」答えるために0.55%、そして「なぜ」の質問の72%に89.94パーセントから減少しました人種差別。

この設計勾配検索トークンに基づいてガイド尤度ターゲットバルクサンプル予測(セクション2)を増加させるために、トリガーの配列タグを更新する反復検索。私たちは、テキスト分類、条件付きのテキストや読解発生した入力が一緒に接続されている場合、ことがわかった短いシーケンスが正常にターゲット予測を引き起こしました。

例えば:

 

共通トリガ対決

 

ホワイトボックス法は、対象モデルを必要としません。

典型的な攻撃とは異なり、彼らは文脈自由である、ので、最後に、一般的な攻撃は、ユニークなモデル解析ツールです。出力モード - そこで、彼らは一般的な入力を研究するためのモデルで強調表示されます。私たちは、データ収集の偏りの影響を研究するために、学習ヒューリスティック(第6節)のモデルを決定するためにそれを使用します。

攻撃モデルと目的

 

 

 

 

 

 トリガ検索アルゴリズム

まず、トリガーの長さを選択します。より効果の長さ、短い、より微妙。続いて、単語を繰り返すことによって「」、サブワード「A」または文字フリップフロップを初期化する「」配列、及びフリップフロップはすべてのフロントエンド/エンド入力に接続されています。

然后,我们迭代地替换触发器中的令牌,以最小化对批量示例的目标预测的损失。为了确定如何替换当前的令牌,我们不能直接应用计算机视觉中的对抗攻击方法,因为令牌是离散的。相反,我们构建在HotFlip (Ebrahimi et al., 2018b)的基础上,这是一种近似于使用梯度替换标记的效果的方法。为了应用这种方法,将触发器标记tadv嵌入到一个热向量中形成eadv

 

 

 

 

Token替换策略

本文HotFlip策略基于任务loss的线性逼近。更新每一个触发器的token eadvi 最小化loss,一阶泰勒近似:

 

 

 V 词典。后面是每个batch的loss的平均梯度。

使用|V| d维点积可以有效地计算最优e' i,其中d为令牌嵌入的维数(Michel et al., 2019)。对于我们考虑的所有模型,这种蛮力解决方案是微不足道的并行性,并且比运行一个前向传递要廉价。最后,在找到每个eadvi之后,我们将嵌入转换回它们相关联的令牌。图1展示了触发器搜索算法。

我们用波束搜索增强了这种令牌替换策略。beam search

对于触发器中的每个令牌位置,我们考虑公式2中的top-k令牌候选项。从左边的位置到右边的位置搜索,利用当前批次上的光束损耗对每一束光束进行定位和打分。由于计算上的限制(附录A),我们使用较小的光束尺寸,增加它们可以改善我们的结果。

我们还攻击使用字节对编码的上下文化ELMo嵌入和子单词模型。这带来了以前工作中没有处理的挑战,例如,ELMo嵌入根据上下文进行更改;我们还在附录A中描述了处理这些攻击的方法。

 

おすすめ

転載: www.cnblogs.com/shona/p/11546402.html