arXiv reaDer
ノイズ除去コントラストを使用したマスク イメージ モデリング
Masked Image Modeling with Denoising Contrast
対照学習からマスク画像モデリング (MIM) への自己教師あり視覚表現学習の開発以来、本質的に大きな違いはありません。 MIM は最近、ビジョン トランスフォーマー (ViT) で最先端のパフォーマンスを発揮し、この一連の研究を支配しています。このコアは、ノイズ除去自動エンコード メカニズムを介してネットワークのパッチレベルのビジュアル コンテキスト キャプチャを強化することです。以前の作品のように余分なトレーニング段階で画像トークナイザーを調整するのではなく、自動エンコードのノイズ除去に関するコントラスト学習の大きな可能性を解き放ち、純粋な MIM メソッドである ConMIM を導入して、単純な画像内パッチ間コントラスト制約を唯一の方法として生成します。マスク パッチ予測の学習目標。ネットワークの事前トレーニングを改善するために、画像の摂動やモデルの進行率など、非対称設計でノイズ除去メカニズムをさらに強化します。さまざまなスケールの ConMIM で事前トレーニングされたモデルは、下流の画像分類、セマンティック セグメンテーション、オブジェクト検出、およびインスタンス セグメンテーション タスクで競争力のある結果を達成します。たとえば、ImageNet-1K 分類では、ViT-Small で 83.9%、および事前トレーニング用の追加データなしの ViT-Base。
Since the development of self-supervised visual representation learning from contrastive learning to masked image modeling (MIM), there is no significant difference in essence, that is, how to design proper pretext tasks for vision dictionary look-up. MIM recently dominates this line of research with state-of-the-art performance on vision Transformers (ViTs), where the core is to enhance the patch-level visual context capturing of the network via denoising auto-encoding mechanism. Rather than tailoring image tokenizers with extra training stages as in previous works, we unleash the great potential of contrastive learning on denoising auto-encoding and introduce a pure MIM method, ConMIM, to produce simple intra-image inter-patch contrastive constraints as the sole learning objectives for masked patch prediction. We further strengthen the denoising mechanism with asymmetric designs, including image perturbations and model progress rates, to improve the network pre-training. ConMIM-pretrained models with various scales achieve competitive results on downstream image classification, semantic segmentation, object detection, and instance segmentation tasks, e.g., on ImageNet-1K classification, we achieve 83.9% top-1 accuracy with ViT-Small and 85.3% with ViT-Base without extra data for pre-training.
updated: Sun Jan 29 2023 06:15:39 GMT+0000 (UTC)
published: Thu May 19 2022 15:22:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト