arXiv reaDer
ノイズ除去コントラストを使用したマスクされた画像モデリング
Masked Image Modeling with Denoising Contrast
対照学習からマスクされた画像モデリングまでの自己監視視覚表現学習の開発以来、本質、つまり視覚辞書検索のための適切な口実タスクを設計する方法に大きな違いはありません。マスクされた画像モデリングは、最近、ビジョントランスフォーマーの最先端のパフォーマンスでこの研究ラインを支配しています。コアは、ノイズ除去自動エンコードメカニズムを介してネットワークのパッチレベルのビジュアルコンテキストキャプチャを強化することです。以前の作品のように追加のトレーニング段階で画像トークナイザーを調整するのではなく、自動エンコードのノイズ除去に関する対照学習の大きな可能性を解き放ち、新しい事前トレーニング方法であるConMIMを導入して、単純な画像内パッチ間対照制約を生成します。マスクされたパッチ予測の学習目標。ネットワークの事前トレーニングを改善するために、画像の摂動やモデルの進行率など、非対称の設計でノイズ除去メカニズムをさらに強化します。さまざまなスケールのConMIMで事前トレーニングされたビジョントランスフォーマーは、ダウンストリームの画像分類、セマンティックセグメンテーション、オブジェクト検出、およびインスタンスセグメンテーションタスクで有望な結果を達成します。
Since the development of self-supervised visual representation learning from contrastive learning to masked image modeling, there is no significant difference in essence, that is, how to design proper pretext tasks for vision dictionary look-up. Masked image modeling recently dominates this line of research with state-of-the-art performance on vision Transformers, where the core is to enhance the patch-level visual context capturing of the network via denoising auto-encoding mechanism. Rather than tailoring image tokenizers with extra training stages as in previous works, we unleash the great potential of contrastive learning on denoising auto-encoding and introduce a new pre-training method, ConMIM, to produce simple intra-image inter-patch contrastive constraints as the learning objectives for masked patch prediction. We further strengthen the denoising mechanism with asymmetric designs, including image perturbations and model progress rates, to improve the network pre-training. ConMIM-pretrained vision Transformers with various scales achieve promising results on downstream image classification, semantic segmentation, object detection, and instance segmentation tasks.
updated: Thu May 19 2022 15:22:29 GMT+0000 (UTC)
published: Thu May 19 2022 15:22:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト