対照的な自己教師あり学習法は、近年大きな成功を収めました。ただし、自己管理は、有望な結果を達成するために非常に長いトレーニングエポック(たとえば、MoCo v3の場合は800エポック)を必要とします。これは、一般の学術コミュニティには受け入れられず、このトピックの開発を妨げます。この作業では、勢いに基づく対照的な学習フレームワークを再検討し、2つの拡張ビューが1つの正のペアのみを生成する非効率性を特定します。 Fast-MoCoを提案します。これは、組み合わせパッチを利用して2つの拡張ビューから複数の正のペアを構築する新しいフレームワークです。これにより、無視できる余分な計算コストで大幅な加速をもたらす豊富な監視信号が提供されます。 100エポックでトレーニングされたFast-MoCoは、800エポックでトレーニングされたMoCo v3(ResNet-50バックボーン)と同様に、73.5%の線形評価精度を達成します。追加のトレーニング(200エポック)により、結果はさらに75.1%に向上します。これは、最先端の方法と同等です。いくつかのダウンストリームタスクでの実験でも、Fast-MoCoの有効性が確認されています。
Contrastive-based self-supervised learning methods achieved great success in recent years. However, self-supervision requires extremely long training epochs (e.g., 800 epochs for MoCo v3) to achieve promising results, which is unacceptable for the general academic community and hinders the development of this topic. This work revisits the momentum-based contrastive learning frameworks and identifies the inefficiency in which two augmented views generate only one positive pair. We propose Fast-MoCo - a novel framework that utilizes combinatorial patches to construct multiple positive pairs from two augmented views, which provides abundant supervision signals that bring significant acceleration with neglectable extra computational cost. Fast-MoCo trained with 100 epochs achieves 73.5% linear evaluation accuracy, similar to MoCo v3 (ResNet-50 backbone) trained with 800 epochs. Extra training (200 epochs) further improves the result to 75.1%, which is on par with state-of-the-art methods. Experiments on several downstream tasks also confirm the effectiveness of Fast-MoCo.