arXiv reaDer
ビジョントランスフォーマーを使用した検出転送学習のベンチマーク
Benchmarking Detection Transfer Learning with Vision Transformers
オブジェクト検出は、事前にトレーニングされたネットワークパラメータが精度やトレーニング速度の向上などの利点をもたらすかどうかをテストするために使用される中心的なダウンストリームタスクです。オブジェクト検出方法の複雑さにより、Vision Transformer(ViT)モデルなどの新しいアーキテクチャが登場したときに、このベンチマークが重要になる可能性があります。これらの問題(たとえば、アーキテクチャの非互換性、遅いトレーニング、高いメモリ消費、不明なトレーニング式など)により、最近の研究では、標準のViTモデルを使用して検出転送学習のベンチマークを行うことができませんでした。このホワイトペーパーでは、これらの課題を克服し、MaskR-CNNのバックボーンとして標準のViTモデルを使用できるようにするトレーニング手法を紹介します。これらのツールは、私たちの研究の主な目標を促進します。最近の最先端の教師あり学習方法、教師あり初期化、強力なランダム初期化ベースラインなど、5つのViT初期化を比較します。私たちの結果は、最近のマスキングベースの教師なし学習方法が、初めて、COCOで説得力のある転移学習の改善を提供し、教師ありおよび以前の自己教師あり事前トレーニング方法よりもボックスAPを最大4%(絶対)増加させる可能性があることを示しています。さらに、これらのマスキングベースの初期化は、モデルサイズが大きくなるにつれて改善が大きくなるため、スケーリングが向上します。
Object detection is a central downstream task used to test if pre-trained network parameters confer benefits, such as improved accuracy or training speed. The complexity of object detection methods can make this benchmarking non-trivial when new architectures, such as Vision Transformer (ViT) models, arrive. These difficulties (e.g., architectural incompatibility, slow training, high memory consumption, unknown training formulae, etc.) have prevented recent studies from benchmarking detection transfer learning with standard ViT models. In this paper, we present training techniques that overcome these challenges, enabling the use of standard ViT models as the backbone of Mask R-CNN. These tools facilitate the primary goal of our study: we compare five ViT initializations, including recent state-of-the-art self-supervised learning methods, supervised initialization, and a strong random initialization baseline. Our results show that recent masking-based unsupervised learning methods may, for the first time, provide convincing transfer learning improvements on COCO, increasing box AP up to 4% (absolute) over supervised and prior self-supervised pre-training methods. Moreover, these masking-based initializations scale better, with the improvement growing as model size increases.
updated: Mon Nov 22 2021 18:59:15 GMT+0000 (UTC)
published: Mon Nov 22 2021 18:59:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト