自己教師あり学習の普及により、ラベル付きデータに依存せずにモデルをトレーニングできるようになり、高価なアノテーションのコストが節約されます。しかし、既存の自己教師あり対比学習法のほとんどは、グローバルな特徴情報とローカルな特徴情報の組み合わせを見落とすことがよくあります。この論文では、グローバル表現とローカル表現に基づいたマルチネットワーク対比学習フレームワークを提案します。複数のネットワークを介した自己教師あり対比学習のためのグローバルおよびローカル特徴情報を導入します。このモデルは、複数のネットワークによって生成された埋め込みペアを対比することにより、画像のさまざまなスケールでの特徴情報を学習します。このフレームワークにより、コントラストに使用されるサンプルの数も拡張され、モデルのトレーニング効率が向上します。 3 つのベンチマーク データセットの線形評価結果は、私たちの方法がいくつかの既存の古典的な自己教師あり学習方法よりも優れていることを示しています。
The popularity of self-supervised learning has made it possible to train models without relying on labeled data, which saves expensive annotation costs. However, most existing self-supervised contrastive learning methods often overlook the combination of global and local feature information. This paper proposes a multi-network contrastive learning framework based on global and local representations. We introduce global and local feature information for self-supervised contrastive learning through multiple networks. The model learns feature information at different scales of an image by contrasting the embedding pairs generated by multiple networks. The framework also expands the number of samples used for contrast and improves the training efficiency of the model. Linear evaluation results on three benchmark datasets show that our method outperforms several existing classical self-supervised learning methods.