arXiv reaDer
インスタンスのバッグの集約により、自己管理型の蒸留が促進されます
Bag of Instances Aggregation Boosts Self-supervised Distillation
自己監視学習の最近の進歩は、特に対照的な学習ベースの方法で目覚ましい進歩を遂げました。これは、各画像とその拡張を個別のクラスと見なし、他のすべての画像と区別しようとします。ただし、エグザンプラが大量にあるため、この種の口実タスクは本質的に収束が遅く、最適化が困難です。これは特に小規模モデルに当てはまります。小規模モデルでは、監視対象のモデルと比較してパフォーマンスが劇的に低下します。この論文では、教師なし学習のためのシンプルで効果的な蒸留戦略を提案します。ハイライトは、類似したサンプル間の関係が重要であり、パフォーマンスを向上させるためにシームレスに生徒に転送できることです。 Bag of InstaNces aGgregatiOnの略であるBINGOと呼ばれる私たちの方法は、教師が学んだ関係を生徒に伝えることを目的としています。ここで、インスタンスのバッグは、教師によって作成され、バッグ内にグループ化された同様のサンプルのセットを示します。蒸留の目的は、バッグ内のインスタンスに関して、生徒全体のコンパクトな表現を集約することです。特に、BINGOは、ResNet-18とResNet-34をバックボーンとしてそれぞれ使用し、ImageNetでの線形評価により、小規模モデルで65.5%と68.9%のトップ1精度という、新しい最先端のパフォーマンスを実現しています。ベースライン(52.5%および57.4%の上位1の精度)を大幅に向上させます。コードはhttps://github.com/haohang96/bingoで入手できます。
Recent advances in self-supervised learning have experienced remarkable progress, especially for contrastive learning based methods, which regard each image as well as its augmentations as an individual class and try to distinguish them from all other images. However, due to the large quantity of exemplars, this kind of pretext task intrinsically suffers from slow convergence and is hard for optimization. This is especially true for small-scale models, in which we find the performance drops dramatically comparing with its supervised counterpart. In this paper, we propose a simple but effective distillation strategy for unsupervised learning. The highlight is that the relationship among similar samples counts and can be seamlessly transferred to the student to boost the performance. Our method, termed as BINGO, which is short for Bag of InstaNces aGgregatiOn, targets at transferring the relationship learned by the teacher to the student. Here bag of instances indicates a set of similar samples constructed by the teacher and are grouped within a bag, and the goal of distillation is to aggregate compact representations over the student with respect to instances in a bag. Notably, BINGO achieves new state-of-the-art performance on small-scale models, i.e., 65.5% and 68.9% top-1 accuracies with linear evaluation on ImageNet, using ResNet-18 and ResNet-34 as the backbones respectively, surpassing baselines (52.5% and 57.4% top-1 accuracies) by a significant margin. The code is available at https://github.com/haohang96/bingo.
updated: Thu Mar 17 2022 12:55:46 GMT+0000 (UTC)
published: Sun Jul 04 2021 17:33:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト