2つのNLP高被引用論文の解釈| BERTモデル、SQuADデータセット

この記事は、近年の自然言語処理(NLP)の分野で引用数の多い2つの論文を解釈したものです。

 

1. BERT:言語理解のためのディープ双方向トランスフォーマーの事前トレーニング

著者: Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova(Google AI)

论文出来:計算言語学協会の北米支部の2019年会議の議事録:人間の言語技術

「紙の住所」を取得するには、ここをクリックしてください

リサーチクエスチョン

本論文では、新しい言語表現モデルBERT(紹介B idirectional E nCoder Rは、からepresentations Tのransformers)を、事前に研修双方向の深い表現、唯一つの追加出力層の共同文書の非標識コンテキスト情報を通じて、あなたはトレーニングを事前にすることができますモデルは調整されており、特定のタスクのアーキテクチャを大幅に変更することなく、さまざまな言語関連のタスクで取得できます。

研究手法

モデルには、事前トレーニングと微調整の2つのステップが含まれます。事前トレーニング段階では、さまざまなトレーニングタスクのラベルなしデータがトレーニングされます。微調整段階では、最初に事前トレーニングパラメータを使用してBERTモデルを初期化し、次にダウンストリームタスクからのラベル付きデータを使用して事前トレーニングパラメータを微調整します。

BERTは、多層双方向TransformerモデルVaswani et al。(2017)です。入力には、単語ベクトル、単語が属する文ベクトル、単語の位置ベクトルの3つの部分が含まれます。画像表現次の図に、[CLS]と[SEP]を示します。ここで、[CLS]と[SEP]は、ユーザーから文を分離するために各入力の先頭に配置される特別な記号です。

この記事では、BERTを事前トレーニングするための2つの監視されていないタスク、つまりMasked Language Model(MLM)とNext Sentence Prediction(NSP)を提案しています。MLMは文中のいくつかの単語をマスクし、モデルにブロック単語を予測させてモデルをトレーニングします。実験的な設定では、単語の約15%がランダムにブロックされます。ただし、このようなトレーニング方法にも欠点があります。マスクされた単語はデータセットから消去されるのと同じであり、事前トレーニングフェーズが微調整フェーズと矛盾する可能性があります。したがって、マスクされた単語を処理する方法は3つあります。80%が[MASK]に置き換えられ、10%がランダムな単語に置き換えられ、残りの10%は変更されません。NSPタスクは、文間の関係を理解するモデルの能力を強化することです。トレーニング中に選択された文のペアAとBの中で、Bが実際にAの次の文である確率は50%であり、そうでない確率は50%です。 Aの次の文。事前トレーニングコーパスは、BooksCorpusと英語版ウィキペディアのテキスト段落を使用します。

13364.png

モデルの微調整では、一般言語理解評価(GLUE)ベンチマークテストセットの8つの評価、SQuAD1.1およびSQuAD2.0読解データセット、および敵対的世代の状況(SWAG)データセットを含む11の自然言語処理タスクへの影響をテストしました。 。BERTは、ベースライン方式よりも安定しています。次の表に、GLUEでの比較結果を示します。

13365.png

分析の結論

この記事で提案されているBERTモデルは、11の自然言語処理タスクで最も高度な結果を達成しています。言語モデル伝達学習によってもたらされるモデル効果の改善は、豊富な教師なし事前トレーニングが多くの言語理解システムの不可欠な部分であることを示しています。特に、リソースの少ないタスクでさえ、深い一方向アーキテクチャの恩恵を受けることができます。この記事の主な貢献は、これらの調査結果を深い双方向アーキテクチャにさらに一般化して、同じ事前トレーニングモデルをさまざまなNLPタスクに正常に適用できるようにすることです。

 

2.あなたが知らないことを知っている:SQuADのための答えられない質問

著者: Pranav Rajpurkar、Robin Jia、Percy Liang(スタンフォード大学)

论論文出所:計算言語学会第56回年次総会の議事録。

「紙の住所」を取得するには、ここをクリックしてください

リサーチクエスチョン

読解システム(モデル)は通常、文脈文書で質問に対する正解を見つけることができますが、それらが与える答えは、文脈に正解がない質問に対してはそれほど信頼できません。既存のデータセットは、回答可能な質問のみに焦点を当てるか、データセットとして簡単に認識できる自動生成された回答不可能な質問を使用します。これらの欠点を補うために、この記事では、スタンフォードの質問と回答のデータセット(SQuAD)の最新バージョンであるSQuAD 2.0を紹介します。これは、既存のSQuADの回答可能な質問と50,000を超える回答が難しい質問を統合したものです。答えるのが難しい質問は、答えられる質問に似ています。SQuAD 2.0でパフォーマンスを向上させるには、システムは可能な場合に質問に回答するだけでなく、段落のコンテキストが回答をサポートしていない場合を判断し、質問への回答を回避する必要があります。SQuAD 2.0データセットは、自然言語理解タスクにおける既存のモデルへの挑戦です。

研究内容

データセット:クラウドソーシングされたスタッフは、答えられない質問を書くためにDaemoプラットフォームで雇われています。各タスクは、SQuAD1.1の記事全体で構成されています。記事の各段落について、スタッフは段落だけでは答えられない最大5つの質問をすることができます。同時に、彼らは段落のエンティティを参照し、合理的な答えを与える必要があります。同時に、スタッフは参照用にSQuAD 1.1の質問を表示され、回答可能な質問と同様に回答しにくい質問を作成するように努めます。

この記事では、2つのデータセットに対する3つの既存のモデルアーキテクチャのパフォーマンスを評価します。これにより、これらのモデルは回答の分布を学習するだけでなく、質問が回答できない質問である確率も予測します。質問に回答できない確率が特定のしきい値を超えるとモデルが予測した場合、モデルは回答分布の学習をあきらめます。次の表は、2つのデータセット(SQuAD1.1およびSQuAD2.0)での3つのモデルのパフォーマンスを示しています。結果は次のとおりです。

  • 最高のパフォーマンスを発揮するモデル(DocQA + ELMo)は、SQuAD 2.0で人間と23.2のギャップがあります。これは、モデルに改善の余地がたくさんあることを意味します。
  • SQuAD1.1と比較して、2つのデータセットで同じモデルアーキテクチャを使用すると、SQuAD 2.0では最適モデルと人のF1値の間のギャップが大きくなり、SQuAD2.0が既存のモデルで学習するのがより難しいデータであることを示しています。 。。

13366.png

SQuAD 2.0で質問に答えるのが難しいことを証明するために、この記事ではTFIDFとルールを使用して、SQuAD 1.1データセットでいくつかの難しい質問をランダムに生成し、比較のために同じモデルを使用します。結果は(下の表に示すように)SQuAD 2.0データセットで最良のモデルが依然として最低であることを示しています。これは、SQuAD2.0が既存の言語理解モデルにとって難しい課題であることを改めて証明しています。

13367.png

研究成果

この記事は、SQuAD 2.0が挑戦的で多様な大規模なデータセットであることを証明しています。これにより、特定の環境で質問に答えられない状況をモデルが学習する必要があります。SQuAD 2.0は、彼らが知らないことを知ることができる新しい読解モデルの開発を促進し、彼らがより深いレベルで言語を理解できるようになると信じる理由があります。

 

過去のレビュー:

NeurIPSの10年間の引用数の多い学者のTOP100リストがリリースされました!これらの大きな牛は崇拝に値します!

NeurIPS 2019 |国立科学技術大学と厦門大学が共同でFreeAnchorを提案しました:新しいアンカーマッチング学習方法

マイケルジョーダンは2020IEEEフォンノイマン賞を受賞し、ベンジオを含む多くの大学生を訓練してきました

おすすめ

転載: blog.csdn.net/AMiner2006/article/details/103458461