既存の自己教師あり学習方法は、(1)分離する機能を明示的に指定する識別、または(2)一緒に閉じる必要がある機能を正確に示す位置合わせのいずれかである、口実タスクによって表現を学習しますが、共同で行う方法は無視します。そして、主に、どの機能をはじき、どの機能を引き付けるかを定義します。この作業では、識別と整列の方法の肯定的な側面を組み合わせ、上記の問題に対処するハイブリッド方法を設計します。私たちの方法は、識別予測タスクによってそれぞれ反発と引力のメカニズムを明示的に指定し、同時に冗長な情報を共有するペアのビュー間の相互情報量を最大化します。提案されたモデルが、分類からセマンティックセグメンテーションに至るまでの多様なダウンストリームタスクに対してより効果的なより優れた機能を学習することを定性的および定量的に示します。 9つの確立されたベンチマークでの私たちの実験は、提案されたモデルが、自己監視および転移学習プロトコルの既存の最先端の結果を一貫して上回っていることを示しています。
Existing self-supervised learning methods learn representation by means of pretext tasks which are either (1) discriminating that explicitly specify which features should be separated or (2) aligning that precisely indicate which features should be closed together, but ignore the fact how to jointly and principally define which features to be repelled and which ones to be attracted. In this work, we combine the positive aspects of the discriminating and aligning methods, and design a hybrid method that addresses the above issue. Our method explicitly specifies the repulsion and attraction mechanism respectively by discriminative predictive task and concurrently maximizing mutual information between paired views sharing redundant information. We qualitatively and quantitatively show that our proposed model learns better features that are more effective for the diverse downstream tasks ranging from classification to semantic segmentation. Our experiments on nine established benchmarks show that the proposed model consistently outperforms the existing state-of-the-art results of self-supervised and transfer learning protocol.