対照学習では、同じインスタンスの異なる拡張ビューを照合することで強力な表現が得られますが、異なるインスタンス間の類似性を捕捉する機能が欠けています。この制限に対処する一般的な方法の 1 つは、(グローバル プーリング後に) グローバル特徴を学習して、知識の蒸留に基づいてインスタンス間の関係をキャプチャすることです。教師のグローバル特徴は、生徒のグローバル特徴の学習をガイドするために使用されます。クロスモダリティ学習に触発され、グローバル機能と中間層機能が相互に学習することを奨励することで、グローバル機能からのみ学習するこの既存のフレームワークを拡張します。これは、低レベルと高レベルのセマンティクス間のインスタンス関係の一貫性を強制する、グローバル機能とハイパーカラム機能 (CGH) の間のクロスコンテキスト学習という新しい自己教師ありフレームワークにつながります。具体的には、中間特徴マップを積み重ねてハイパーコラム表現を構築し、2 つのコンテキスト (ハイパーコラムとグローバル特徴) を個別に使用してインスタンスの関係を測定し、一方のコンテキストの関係を使用してもう一方のコンテキストの学習をガイドします。このクロスコンテキスト学習により、モデルは 2 つのコンテキスト間の違いから学習できるようになります。線形分類と下流タスクに関する実験結果は、私たちの方法が最先端の方法よりも優れていることを示しています。
Whilst contrastive learning yields powerful representations by matching different augmented views of the same instance, it lacks the ability to capture the similarities between different instances. One popular way to address this limitation is by learning global features (after the global pooling) to capture inter-instance relationships based on knowledge distillation, where the global features of the teacher are used to guide the learning of the global features of the student. Inspired by cross-modality learning, we extend this existing framework that only learns from global features by encouraging the global features and intermediate layer features to learn from each other. This leads to our novel self-supervised framework: cross-context learning between global and hypercolumn features (CGH), that enforces the consistency of instance relations between low- and high-level semantics. Specifically, we stack the intermediate feature maps to construct a hypercolumn representation so that we can measure instance relations using two contexts (hypercolumn and global feature) separately, and then use the relations of one context to guide the learning of the other. This cross-context learning allows the model to learn from the differences between the two contexts. The experimental results on linear classification and downstream tasks show that our method outperforms the state-of-the-art methods.