arXiv reaDer
自己監視型ビジュアルトランスフォーマーのトレーニングに関する実証的研究
An Empirical Study of Training Self-Supervised Visual Transformers
この論文では、新しい方法については説明していません。代わりに、コンピュータービジョンの最近の進歩、つまりVisual Transformers(ViT)の自己教師あり学習を考慮して、単純で増分的でありながら知っておく必要のあるベースラインを研究します。標準の畳み込みネットワークのトレーニングレシピは非常に成熟していて堅牢ですが、ViTのレシピはまだ構築されていません。特に、トレーニングがより困難になる自己監視シナリオではそうです。この作業では、基本に戻り、自己教師ありViTをトレーニングするためのいくつかの基本的なコンポーネントの効果を調査します。不安定性は精度を低下させる主要な問題であり、明らかに良好な結果によって隠される可能性があることがわかります。これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できることを明らかにします。 ViTの結果をMoCov3およびその他のいくつかの自己監視フレームワークでベンチマークし、さまざまな側面でアブレーションを行います。現在肯定的な証拠だけでなく、課題や未解決の質問についても説明します。この研究が将来の研究に役立つデータポイントと経験を提供することを願っています。
This paper does not describe a novel method. Instead, it studies a straightforward, incremental, yet must-know baseline given the recent progress in computer vision: self-supervised learning for Visual Transformers (ViT). While the training recipes for standard convolutional networks have been highly mature and robust, the recipes for ViT are yet to be built, especially in the self-supervised scenarios where training becomes more challenging. In this work, we go back to basics and investigate the effects of several fundamental components for training self-supervised ViT. We observe that instability is a major issue that degrades accuracy, and it can be hidden by apparently good results. We reveal that these results are indeed partial failure, and they can be improved when training is made more stable. We benchmark ViT results in MoCo v3 and several other self-supervised frameworks, with ablations in various aspects. We discuss the currently positive evidence as well as challenges and open questions. We hope that this work will provide useful data points and experience for future research.
updated: Mon Apr 05 2021 17:59:40 GMT+0000 (UTC)
published: Mon Apr 05 2021 17:59:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト