事前学習言語モデルの最近の開発により、Natural Language Processing(NLP)が大幅に進歩し、BERT、RoBERTa、XLNet、ALBERT、T5などの非常に効率的なモデルが生まれました。それにもかかわらず、異なるアーキテクチャを持つこれらの方法は、ラベルのない大量のテキストデータを使用して自然な言語理解の一般的なモデルを作成するというアイデアによって統合されています。その後、感情分析や質問回答システムの構築など、特定の適用された問題を解決するためにさらにトレーニングされ、微調整されます。
既存の事前トレーニング方法は、主に2つのカテゴリに分類されます。
- 入力内のテキストを左から右に処理し、以前に定義されたコンテキストで次の単語を予測するGPTなどの言語モデル(LM)。
- ソーステキストのマスクされた単語を予測しようとするBERT、RoBERTa、ALBERTなどのマスクされた言語モデル(MLM)。
MLMの利点は、双方向で機能することです。一方向のみを向いているLMとは対照的に、予測されたトークンの両側のテキストを「参照」します。ただし、MLM(およびXLNetなどのモデル)には、事前トレーニングタスクに起因する欠点もあります。入力シーケンスのすべての単語を予測する代わりに、マスクされた小さな部分のみを予測します(約15%のみ)。これにより、1つの文から受け取る情報の量が減少します。
. () . : (, GPT), . : (, BERT), , .
«ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators» , BERT’, . ELECTRA – , (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) — , , . , ELECTRA , RoBERTa XLNet GLUE, , , ¼ , - SQuAD. ELECTRA , : 1 GPU , (accuracy), GPT, 30 . ELECTRA TensorFlow .
ELECTRA – (replaced token detection, RTD), ( MLM) ( LM). - (generative adversarial network, GAN), ELECTRA «» «» . , , «[MASK]» ( BERT’), RTD , . , , «cooked» «ate». , , . (.. ) , , . , , (15% BERT). RTD , MLM – ELECTRA «» , , .. . , RTD , .. , .
.
, . , , ELECTRA ( BERT- ), . , , , GAN, , , - GAN . . , ( ELECTRA) NLP . .
. MLM , ELECTRA.
ELECTRA c NLP , , , RoBERTa XLNet 25% , .
x , ( FLOPs), y – GLUE. ELECTRA , NLP . , GLUE, T5, , .. ( 10 , RoBERTa).
, ELECTRA-Small, , GPU 4 . , , TPU , ELECTRA-Small GPT, 1/30 .
, , ELECTRA , ELECTRA-Large ( RoBERTa 10% T5). - SQuAD 2.0 (. ) RoBERTa, XLNet ALBERT GLUE. T5-11b GLUE, ELECTRA 30 10% , T5.
ELECTRA-Large SQuAD 2.0 ( ).
ELECTRA
ELECTRAの事前トレーニングと、テキスト分類、質疑応答タスク、シーケンスマークアップなど、適用されたNLPタスクの微調整の両方のコードがオープンアクセスにリリースされました。このコードは、単一のGPUでの小さなELECTRAモデルの高速トレーニングをサポートします。ELECTRA-Large、ELECTRA-Base、ELECTRA-Smallなどの事前トレーニング済みモデルの重量も掲載されています。ELECTRAは英語でのみ利用可能ですが、将来的には、開発者はモデルを他の言語で事前トレーニングすることを計画しています。
著者
- 原作者-KevinClark、Thang Luong
- 翻訳-エカテリーナスミルノワ
- 編集とレイアウト-セルゲイShkarin