arXiv reaDer
XCiT:相互共分散画像トランスフォーマー
XCiT: Cross-Covariance Image Transformers
自然言語処理での成功に続いて、トランスフォーマーは最近、コンピュータービジョンに大きな期待を寄せています。トランスフォーマーの基礎となる自己注意操作は、すべてのトークン、つまり単語または画像パッチ間のグローバルな相互作用を生み出し、畳み込みのローカルな相互作用を超えた画像データの柔軟なモデリングを可能にします。ただし、この柔軟性には時間とメモリの2次の複雑さが伴い、長いシーケンスや高解像度の画像への適用が妨げられます。トークンではなく機能チャネル全体で機能する「転置」バージョンの自己注意を提案します。この場合、相互作用はキーとクエリ間の相互共分散行列に基づいています。結果として得られる相互共分散注意(XCA)は、トークンの数が線形的に複雑であり、高解像度画像の効率的な処理を可能にします。当社の相互共分散イメージトランスフォーマー(XCiT)は、XCAに基づいて構築されています。これは、従来のトランスの精度と畳み込みアーキテクチャのスケーラビリティを兼ね備えています。 XCiTの有効性と一般性を検証するために、ImageNet-1kでの画像分類と自己教師あり特徴学習、COCOでのオブジェクト検出とインスタンスセグメンテーション、ADE20kでのセマンティックセグメンテーションなど、複数のビジョンベンチマークで優れた結果を報告します。
Following their success in natural language processing, transformers have recently shown much promise for computer vision. The self-attention operation underlying transformers yields global interactions between all tokens ,i.e. words or image patches, and enables flexible modelling of image data beyond the local interactions of convolutions. This flexibility, however, comes with a quadratic complexity in time and memory, hindering application to long sequences and high-resolution images. We propose a "transposed" version of self-attention that operates across feature channels rather than tokens, where the interactions are based on the cross-covariance matrix between keys and queries. The resulting cross-covariance attention (XCA) has linear complexity in the number of tokens, and allows efficient processing of high-resolution images. Our cross-covariance image transformer (XCiT) is built upon XCA. It combines the accuracy of conventional transformers with the scalability of convolutional architectures. We validate the effectiveness and generality of XCiT by reporting excellent results on multiple vision benchmarks, including image classification and self-supervised feature learning on ImageNet-1k, object detection and instance segmentation on COCO, and semantic segmentation on ADE20k.
updated: Fri Jun 18 2021 15:33:31 GMT+0000 (UTC)
published: Thu Jun 17 2021 17:33:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト