arXiv reaDer
iBOT:オンライントークナイザーを使用したImageBERTの事前トレーニング
iBOT: Image BERT Pre-Training with Online Tokenizer
言語トランスフォーマーの成功は、主にマスクされた言語モデリング(MLM)の口実タスクに起因します。このタスクでは、テキストが最初に意味的に意味のある部分にトークン化されます。この作業では、マスクされた画像モデリング(MIM)を研究し、意味的に意味のあるビジュアルトークナイザーを使用することの利点と課題を示します。オンライントークナイザーでマスクされた予測を実行できる自己監視フレームワークiBOTを紹介します。具体的には、マスクされたパッチトークンで自己蒸留を実行し、教師ネットワークをオンライントークナイザーとして使用し、クラストークンで自己蒸留して視覚的なセマンティクスを取得します。オンライントークナイザーは、MIMの目的と共同で学習可能であり、トークナイザーを事前にトレーニングする必要がある多段階のトレーニングパイプラインを不要にします。 ImageNet-1Kで評価された81.7%の線形プロービング精度と86.3%の微調整精度を達成することにより、iBOTの卓越性を示します。最先端の画像分類結果に加えて、新しいローカルセマンティックパターンに下線を引きます。これにより、モデルは一般的な破損に対して強力な堅牢性を獲得し、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーション。
The success of language Transformers is primarily attributed to the pretext task of masked language modeling (MLM), where texts are first tokenized into semantically meaningful pieces. In this work, we study masked image modeling (MIM) and indicate the advantages and challenges of using a semantically meaningful visual tokenizer. We present a self-supervised framework iBOT that can perform masked prediction with an online tokenizer. Specifically, we perform self-distillation on masked patch tokens and take the teacher network as the online tokenizer, along with self-distillation on the class token to acquire visual semantics. The online tokenizer is jointly learnable with the MIM objective and dispenses with a multi-stage training pipeline where the tokenizer needs to be pre-trained beforehand. We show the prominence of iBOT by achieving an 81.7% linear probing accuracy and an 86.3% fine-tuning accuracy evaluated on ImageNet-1K. Beyond the state-of-the-art image classification results, we underline emerging local semantic patterns, which helps the models to obtain strong robustness against common corruptions and achieve leading results on dense downstream tasks, eg., object detection, instance segmentation, and semantic segmentation.
updated: Thu Dec 09 2021 09:02:52 GMT+0000 (UTC)
published: Mon Nov 15 2021 15:18:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト