arXiv reaDer
On the Relationship between Self-Attention and Convolutional Layers
 視覚に注意メカニズムを組み込む最近の傾向により、研究者は、主要な構成要素としての畳み込み層の優位性を再考するようになりました。 CNNが長距離の依存関係を処理できるようにするだけでなく、Ramachandran et al。 (2019)注意が畳み込みに完全に取って代わることができ、視覚タスクで最先端のパフォーマンスを達成できることを示しました。これは疑問を提起します:学習された注意層は畳み込み層と同様に動作しますか?この作業は、アテンションレイヤーが畳み込みを実行できることを示す証拠であり、実際、彼らは実際にコンボリューションを行うことを学んでいます。具体的には、十分な数のヘッドを備えたマルチヘッド自己注意層が、少なくとも畳み込み層と同じくらい表現力があることを証明します。次に、数値実験により、自己注目レイヤーがCNNレイヤーと同様にピクセルグリッドパターンに従うことを示し、分析を裏付けています。私たちのコードは公開されています。
Recent trends of incorporating attention mechanisms in vision have led researchers to reconsider the supremacy of convolutional layers as a primary building block. Beyond helping CNNs to handle long-range dependencies, Ramachandran et al. (2019) showed that attention can completely replace convolution and achieve state-of-the-art performance on vision tasks. This raises the question: do learned attention layers operate similarly to convolutional layers? This work provides evidence that attention layers can perform convolution and, indeed, they often learn to do so in practice. Specifically, we prove that a multi-head self-attention layer with sufficient number of heads is at least as expressive as any convolutional layer. Our numerical experiments then show that self-attention layers attend to pixel-grid patterns similarly to CNN layers, corroborating our analysis. Our code is publicly available.
updated: Fri Jan 10 2020 09:06:09 GMT+0000 (UTC)
published: Fri Nov 08 2019 23:48:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト