MV-MR: 自己教師あり学習と知識蒸留のためのマルチビューとマルチ表現
MV-MR: multi-views and multi-representations for self-supervised learning and knowledge distillation
マルチビューとマルチ表現 (MV-MR) に基づく自己教師あり学習と知識蒸留の新しい方法を提示します。 MV-MR は、拡張ビューと非拡張ビューからの学習可能な埋め込み間の依存関係の最大化と、拡張ビューからの学習可能な埋め込みと非拡張ビューからの複数の学習不可能な表現との間の依存性の最大化に基づいています。提案された方法が、効率的な自己教師付き分類とモデルにとらわれない知識の蒸留に使用できることを示します。他の自己教師あり手法とは異なり、私たちのアプローチは、対照学習、クラスタリング、または停止勾配を使用しません。 MV-MR は、画像の複数表現を正則化として使用することにより、学習可能な埋め込みに制約を組み込むことを可能にする汎用フレームワークです。この線に沿って、知識の蒸留は、そのような正規化の特定のケースと見なされます。 MV-MR は、STL10 および ImageNet-1K データセットで、非対照的でクラスタリングのない方法の中で最先端のパフォーマンスを提供します。 CLIP ViT モデルに基づいて提案された知識蒸留を使用して事前トレーニングされた、より複雑でない ResNet50 モデルが、STL10 線形評価で最先端のパフォーマンスを達成することを示します。コードは で入手できます。
We present a new method of self-supervised learning and knowledge distillation based on the multi-views and multi-representations (MV-MR). The MV-MR is based on the maximization of dependence between learnable embeddings from augmented and non-augmented views, jointly with the maximization of dependence between learnable embeddings from augmented view and multiple non-learnable representations from non-augmented view. We show that the proposed method can be used for efficient self-supervised classification and model-agnostic knowledge distillation. Unlike other self-supervised techniques, our approach does not use any contrastive learning, clustering, or stop gradients. MV-MR is a generic framework allowing the incorporation of constraints on the learnable embeddings via the usage of image multi-representations as regularizers. Along this line, knowledge distillation is considered a particular case of such a regularization. MV-MR provides the state-of-the-art performance on the STL10 and ImageNet-1K datasets among non-contrastive and clustering-free methods. We show that a lower complexity ResNet50 model pretrained using proposed knowledge distillation based on the CLIP ViT model achieves state-of-the-art performance on STL10 linear evaluation. The code is available at:
