arXiv reaDer
表現学習のための効率的な自己監視型ビジョントランスフォーマー
Efficient Self-supervised Vision Transformers for Representation Learning
この論文では、視覚表現学習のための効率的な自己教師ありビジョントランスフォーマー(EsViT)を開発するための2つの手法を調査します。最初に、包括的な経験的研究を通じて、スパースな自己注意を備えた多段階アーキテクチャがモデリングの複雑さを大幅に軽減できるが、画像領域間のきめ細かい対応をキャプチャする機能を失うというコストがかかることを示します。次に、モデルがきめ細かい領域依存関係をキャプチャできるようにする領域マッチングの新しい事前トレーニングタスクを提案し、その結果、学習した視覚表現の品質を大幅に向上させます。私たちの結果は、2つの手法を組み合わせることで、EsViTがImageNet線形プローブ評価で81.3%のトップ1を達成し、約1桁高いスループットで従来技術を上回っていることを示しています。ダウンストリームの線形分類タスクに転送する場合、EsViTは、18個のデータセットのうち17個で教師ありの対応物よりも優れています。コードとモデルは公開されます。
This paper investigates two techniques for developing efficient self-supervised vision transformers (EsViT) for visual representation learning. First, we show through a comprehensive empirical study that multi-stage architectures with sparse self-attentions can significantly reduce modeling complexity but with a cost of losing the ability to capture fine-grained correspondences between image regions. Second, we propose a new pre-training task of region matching which allows the model to capture fine-grained region dependencies and as a result significantly improves the quality of the learned vision representations. Our results show that combining the two techniques, EsViT achieves 81.3% top-1 on the ImageNet linear probe evaluation, outperforming prior arts with around an order magnitude of higher throughput. When transferring to downstream linear classification tasks, EsViT outperforms its supervised counterpart on 17 out of 18 datasets. The code and models will be publicly available.
updated: Thu Jun 17 2021 19:57:33 GMT+0000 (UTC)
published: Thu Jun 17 2021 19:57:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト