Efficient Attention: Attention with Linear Complexities
内積の注意は、コンピュータービジョンと自然言語処理に幅広い用途があります。ただし、そのメモリと計算コストは、入力サイズに応じて2次関数的に増加します。このような成長は、高解像度の入力への適用を禁じています。この欠点を改善するために、この論文では、ドット積の注意と同等であるが、メモリと計算のコストが大幅に少ない、新しい効率的な注意メカニズムを提案します。そのリソース効率により、アテンションモジュールをネットワークにさらに広範囲かつ柔軟に統合できるため、精度が向上します。経験的評価により、その利点の有効性が実証されました。効率的なアテンションモジュールは、MS-COCO 2017のオブジェクト検出器とインスタンスセグメンターのパフォーマンスを大幅に向上させました。さらに、リソース効率により、コストが高いためにドット積アテンションの使用が禁止されている複雑なモデルへのアテンションが民主化されます。例として、効率的な注意を払ったモデルは、シーンフローデータセットのステレオ深度推定のための最先端の精度を達成しました。コードはで入手できます。
Dot-product attention has wide applications in computer vision and natural language processing. However, its memory and computational costs grow quadratically with the input size. Such growth prohibits its application on high-resolution inputs. To remedy this drawback, this paper proposes a novel efficient attention mechanism equivalent to dot-product attention but with substantially less memory and computational costs. Its resource efficiency allows more widespread and flexible integration of attention modules into a network, which leads to better accuracies. Empirical evaluations demonstrated the effectiveness of its advantages. Efficient attention modules brought significant performance boosts to object detectors and instance segmenters on MS-COCO 2017. Further, the resource efficiency democratizes attention to complex models, where high costs prohibit the use of dot-product attention. As an exemplar, a model with efficient attention achieved state-of-the-art accuracies for stereo depth estimation on the Scene Flow dataset. Code is available at
updated: Wed Nov 11 2020 03:40:08 GMT+0000 (UTC)
published: Tue Dec 04 2018 06:41:46 GMT+0000 (UTC)
