オブジェクト検出やセマンティックセグメンテーションなどのセミグローバルタスクに適した自己教師あり学習(SSL)メソッドを紹介します。トレーニング中のピクセルレベルの局所コントラスト(LC)損失を最小限に抑えることにより、同じ画像の変換されたバージョンの対応する画像位置を表す、自己学習機能間の局所的な一貫性を強化します。 LC損失は、最小限のオーバーヘッドで既存の教師あり学習方法に追加できます。 COCO、PASCAL VOC、CityScapesデータセットを使用して、オブジェクト検出とセマンティックセグメンテーションの2つのダウンストリームタスクでSSLアプローチを評価します。私たちの方法は、COCOオブジェクト検出で1.9%、PASCAL VOC検出で1.4%、CityScapesセグメンテーションで0.6%、既存の最先端のSSLアプローチを上回っています。
We present a self-supervised learning (SSL) method suitable for semi-global tasks such as object detection and semantic segmentation. We enforce local consistency between self-learned features, representing corresponding image locations of transformed versions of the same image, by minimizing a pixel-level local contrastive (LC) loss during training. LC-loss can be added to existing self-supervised learning methods with minimal overhead. We evaluate our SSL approach on two downstream tasks -- object detection and semantic segmentation, using COCO, PASCAL VOC, and CityScapes datasets. Our method outperforms the existing state-of-the-art SSL approaches by 1.9% on COCO object detection, 1.4% on PASCAL VOC detection, and 0.6% on CityScapes segmentation.