arXiv reaDer
Stand-Alone Self-Attention in Vision Models
畳み込みは、最新のコンピュータービジョンシステムの基本的な構成要素です。最近のアプローチは、長距離の依存関係をキャプチャするために畳み込みを超えることを主張しています。これらの取り組みは、多くの視覚タスクの獲得を達成するために、自己注意や非局所的手段などのコンテンツベースの相互作用で畳み込みモデルを強化することに焦点を当てています。生じる自然な問題は、たたみ込みの単なる増強として機能するのではなく、視覚モデルの注意をスタンドアロンのプリミティブにすることができるかどうかです。純粋な自己注意ビジョンモデルの開発とテストでは、自己注意が実際に効果的なスタンドアロンレイヤーになり得ることを検証します。空間畳み込みのすべてのインスタンスをResNetモデルに適用された自己注意の形式に置き換える簡単な手順により、FLOPSが12%少なく、パラメーターが29%少ないImageNet分類のベースラインよりも優れた完全自己注意モデルが生成されます。 COCOオブジェクト検出では、FLOPSが39%減少し、パラメーターが34%減少する一方で、純粋な自己注意モデルはベースラインRetinaNetのmAPと一致します。詳細なアブレーション研究は、後の層で使用する場合、自己注意が特にインパクトがあることを示しています。これらの結果は、スタンドアロンの自己注意がビジョンプラクティショナーのツールボックスへの重要な追加であることを確立しています。
Convolutions are a fundamental building block of modern computer vision systems. Recent approaches have argued for going beyond convolutions in order to capture long-range dependencies. These efforts focus on augmenting convolutional models with content-based interactions, such as self-attention and non-local means, to achieve gains on a number of vision tasks. The natural question that arises is whether attention can be a stand-alone primitive for vision models instead of serving as just an augmentation on top of convolutions. In developing and testing a pure self-attention vision model, we verify that self-attention can indeed be an effective stand-alone layer. A simple procedure of replacing all instances of spatial convolutions with a form of self-attention applied to ResNet model produces a fully self-attentional model that outperforms the baseline on ImageNet classification with 12% fewer FLOPS and 29% fewer parameters. On COCO object detection, a pure self-attention model matches the mAP of a baseline RetinaNet while having 39% fewer FLOPS and 34% fewer parameters. Detailed ablation studies demonstrate that self-attention is especially impactful when used in later layers. These results establish that stand-alone self-attention is an important addition to the vision practitioner's toolbox.
updated: Thu Jun 13 2019 19:43:01 GMT+0000 (UTC)
published: Thu Jun 13 2019 19:43:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト