対照学習は、監督なしで有用な表現を学習するのに効果的です。しかし、対照的な学習はショートカットの影響を受けやすくなります。つまり、ダウンストリームタスクに関係のないショートカット機能を学習し、関連情報を破棄する可能性があります。過去の作業では、ショートカットを排除する手作りのデータ拡張によってこの制限に対処しています。ただし、人間が解釈できないデータモダリティ(無線信号など)では、手作りの拡張は実行できません。さらに、モダリティが解釈可能である場合(たとえば、RGB)でも、ショートカット情報を削除することが望ましくない場合があります。たとえば、複数属性の分類では、1つの属性に関連する情報が、他の属性のショートカットとして機能する場合があります。このホワイトペーパーでは、ショートカットに対して堅牢な教師なし表現を学習するためのフレームワークである再構成対照学習(RCL)について説明します。重要なアイデアは、学習した表現に入力を再構築させることです。これにより、潜在的なショートカットに自然に対抗します。広範な実験により、RCLはショートカットに対して非常に堅牢であり、さまざまなタスクのRGBデータセットとRFデータセットの両方で最先端の対照学習方法よりも優れていることが確認されています。
Contrastive learning is effective at learning useful representations without supervision. Yet contrastive learning is susceptible to shortcuts -- i.e., it may learn shortcut features irrelevant to the downstream task and discard relevant information. Past work has addressed this limitation via handcrafted data augmentations that eliminate the shortcut. However, handcrafted augmentations are infeasible for data modalities that are not interpretable by humans (e.g., radio signals). Further, even when the modality is interpretable (e.g., RGB), sometimes eliminating the shortcut information may be undesirable. For example, in multi-attribute classification, information related to one attribute may act as a shortcut around other attributes. This paper presents reconstructive contrastive learning (RCL), a framework for learning unsupervised representations that are robust to shortcuts. The key idea is to force the learned representation to reconstruct the input, which naturally counters potential shortcuts. Extensive experiments verify that RCL is highly robust to shortcuts and outperforms state-of-the-art contrastive learning methods on both RGB and RF datasets for a variety of tasks.