arXiv reaDer
PatchRot: ビジョン トランスフォーマーをトレーニングするための自己管理手法
PatchRot: A Self-Supervised Technique for Training Vision Transformers
ビジョン トランスフォーマーは、畳み込みニューラル ネットワークよりも優れたパフォーマンスを発揮するために、大量のラベル付きデータを必要とします。ただし、巨大なデータセットのラベル付けは非常にコストのかかるプロセスです。自己教師あり学習手法は、教師あり学習と同様の機能を教師なしで学習することにより、この問題を軽減します。このホワイト ペーパーでは、ビジョン トランスフォーマー用に作成された自己管理型の手法 PatchRot を提案します。 PatchRot は、イメージとイメージ パッチを回転させ、ネットワークをトレーニングして回転角度を予測します。ネットワークは、画像からグローバル フィーチャとローカル フィーチャの両方を抽出することを学習します。さまざまなデータセットでの広範な実験では、PatchRot トレーニングが、教師あり学習や比較ベースラインよりも優れた豊富な機能を学習することを示しています。
Vision transformers require a huge amount of labeled data to outperform convolutional neural networks. However, labeling a huge dataset is a very expensive process. Self-supervised learning techniques alleviate this problem by learning features similar to supervised learning in an unsupervised way. In this paper, we propose a self-supervised technique PatchRot that is crafted for vision transformers. PatchRot rotates images and image patches and trains the network to predict the rotation angles. The network learns to extract both global and local features from an image. Our extensive experiments on different datasets showcase PatchRot training learns rich features which outperform supervised learning and compared baseline.
updated: Thu Oct 27 2022 18:55:12 GMT+0000 (UTC)
published: Thu Oct 27 2022 18:55:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト