arXiv reaDer
RePre:再構成的な事前トレーニングによる自己監視型ビジョントランスフォーマーの改善
RePre: Improving Self-Supervised Vision Transformer with Reconstructive Pre-training
最近、自己監視型ビジョントランスフォーマーは、その印象的な表現学習能力で前例のない注目を集めています。ただし、主な方法である対照学習は、主に、画像のグローバルな理解を学習するインスタンス識別口実タスクに依存しています。このホワイトペーパーでは、ローカル機能学習をReconstructive Pre-training(RePre)を介して自己監視型ビジョントランスフォーマーに組み込みます。 RePreは、既存の対照的な目的と並行して生の画像ピクセルを再構築するためのブランチを追加することにより、対照的なフレームワークを拡張します。 RePreには、トランスフォーマーエンコーダーのマルチ階層機能を融合した軽量の畳み込みベースのデコーダーが装備されています。マルチ階層機能は、RePreにとって重要な低セマンティック情報から高セマンティック情報までの豊富な監視を提供します。私たちのRePreは、さまざまなビジョントランスフォーマーアーキテクチャを備えたさまざまな対照的なフレームワークに適切な改善をもたらします。ダウンストリームタスクでの転送パフォーマンスは、教師あり事前トレーニングおよび最先端(SOTA)の自己教師あり対応タスクよりも優れています。
Recently, self-supervised vision transformers have attracted unprecedented attention for their impressive representation learning ability. However, the dominant method, contrastive learning, mainly relies on an instance discrimination pretext task, which learns a global understanding of the image. This paper incorporates local feature learning into self-supervised vision transformers via Reconstructive Pre-training (RePre). Our RePre extends contrastive frameworks by adding a branch for reconstructing raw image pixels in parallel with the existing contrastive objective. RePre is equipped with a lightweight convolution-based decoder that fuses the multi-hierarchy features from the transformer encoder. The multi-hierarchy features provide rich supervisions from low to high semantic information, which are crucial for our RePre. Our RePre brings decent improvements on various contrastive frameworks with different vision transformer architectures. Transfer performance in downstream tasks outperforms supervised pre-training and state-of-the-art (SOTA) self-supervised counterparts.
updated: Tue Jan 18 2022 10:24:58 GMT+0000 (UTC)
published: Tue Jan 18 2022 10:24:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト