arXiv reaDer
ハイブリッド蒸留: マスクされたオートエンコーダーと対照学習器を接続する
Hybrid Distillation: Connecting Masked Autoencoders with Contrastive Learners
表現学習は、従来の教師ありトレーニングから、対照学習 (CL) およびマスク イメージ モデリング (MIM) へと進化してきました。これまでの研究では、特定のシナリオにおける長所と短所が実証されています。つまり、CL と教師あり事前トレーニングは、長距離のグローバル パターンを捕捉し、より優れた特徴識別を可能にする点で優れていますが、MIM は、すべてのトランス層にわたってより局所的で多様な注意を導入できます。このペーパーでは、これらの長所を組み合わせたモデルを取得する方法を検討します。まず、以前の特徴抽出およびマスク特徴再構築方法を調査し、その限界を特定します。私たちは、それらの多様性の増加は主に非対称なデザインに由来していることがわかりましたが、これらのデザインは今度は識別能力を損なう可能性があります。差別と多様性の両方をより良く得るために、教師付き/CL教師とMIM教師の両方を利用して生徒モデルを共同で指導する、シンプルだが効果的なハイブリッド蒸留戦略を提案します。ハイブリッド蒸留は、MIM 教師のトークン関係を模倣して注意崩壊を軽減するとともに、教師あり/CL 教師の特徴マップを蒸留して識別を可能にします。さらに、段階的な冗長トークン マスキング戦略も利用して、蒸留コストを削減し、局所最適化に陥ることを回避します。実験結果は、ハイブリッド蒸留がさまざまなベンチマークで優れたパフォーマンスを達成できることを証明しています。
Representation learning has been evolving from traditional supervised training to Contrastive Learning (CL) and Masked Image Modeling (MIM). Previous works have demonstrated their pros and cons in specific scenarios, i.e., CL and supervised pre-training excel at capturing longer-range global patterns and enabling better feature discrimination, while MIM can introduce more local and diverse attention across all transformer layers. In this paper, we explore how to obtain a model that combines their strengths. We start by examining previous feature distillation and mask feature reconstruction methods and identify their limitations. We find that their increasing diversity mainly derives from the asymmetric designs, but these designs may in turn compromise the discrimination ability. In order to better obtain both discrimination and diversity, we propose a simple but effective Hybrid Distillation strategy, which utilizes both the supervised/CL teacher and the MIM teacher to jointly guide the student model. Hybrid Distill imitates the token relations of the MIM teacher to alleviate attention collapse, as well as distills the feature maps of the supervised/CL teacher to enable discrimination. Furthermore, a progressive redundant token masking strategy is also utilized to reduce the distilling costs and avoid falling into local optima. Experiment results prove that Hybrid Distill can achieve superior performance on different benchmarks.
updated: Wed Jun 28 2023 02:19:35 GMT+0000 (UTC)
published: Wed Jun 28 2023 02:19:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト