パフォーマーとの注意メカニズムの再考

トランスフォーマーベースのモデルは、会話型AI自然言語処理画像処理さらには音楽など、さまざまな分野で優れた結果を達成します。アーキテクチャの主要コンポーネントは、入力シーケンス内のすべてのペアの類似性を計算するTransformersアテンションモジュール(アテンションモジュール)です。ただし、入力シーケンスの長さの増加に応じて適切にスケーリングできないため、すべての類似性推定値を取得するための計算時間の2次増加、およびこれらの推定値を格納するためのマトリックスの構築に使用されるメモリ量の2次増加が必要です。



長時間の注意が必要なアプリケーションでは、メモリキャッシング技術など、より高速でコンパクトなプロキシがいくつか提案されていますが、より一般的な解決策は、まばらな注意を使用することです。スパースアテンションは、すべての可能なペアではなく、シーケンスから限られた数の類似性スコアのみを計算することにより、アテンションメカニズムの計算時間とメモリ要件を削減し、完全なマトリックスではなくスパースになります。これらのスパースオカレンスは、スパーストランスフォーマーロングフォーマーなどの手法で示されているように、手動で提案、最適化手法を使用して検出、学習、またはランダム化することができます。ルーティングトランスフォーマーリフォーマービッグバード。スパースマトリックスはグラフやエッジ表すこともできるため、スパースメソッドは、特にグラフアテンションネットワークで概説されているアテンションメカニズムに関して、グラフニューラルネットワークの文献によっても動機付けられています。このようなスパース性アーキテクチャでは、通常、完全な注意メカニズムを暗黙的に作成するために追加のレイヤーが必要です。



image12



. : , . : Graph Attention Networks, , , . . « : » .



, . (1) , ; (2) ; (3) , , ; (4) , , . , , , Pointer Networks. , , , (softmax), .



, Performer, , . , , , ImageNet64, , PG-19. Performer () , , () . (Fast Attention Via Positive Orthogonal Random Features, FAVOR+), . ( , -). , .





, , , . , - . , , .



image8



: , , , q k. : Q' K' , /. - , .



- , . , , , () . , . , , .



, , . , , , , -.





, . , . , , . , FAVOR+.



image10



: , A V. : Q' K', A , , , , A .



, , . () , , , , , , .



image4



: , . : , .





Performer , , , .



image7



(T) (L). GPU. (X) «» , , , . Performer .



, Performer, -, , .



image13



One Billion Word Benchmark (LM1B), Performer, 0.07 ( ). Performer .



  :



— , . , , 20 . (, UniRef) , . Performer-ReLU ( ReLU, , ) , Performer-Softmax (accuracy) , .



image2



. (Train) — , (Validation) – , — (U), — (B). 36 ProGen (2019) , 16x16 TPU-v2. .



Protein Performer, ReLU. Performer , , . , , . Performer' . , , Performer - .



image17-2



: , . , (D, E) (F, Y), . : 4 () 3 «» () BPT1_BOVIN, .



image5



8192, . TPU, ( ) .





, . , , FAVOR Reformer. , Performer' . , , .








All Articles