arXiv reaDer
InsCon:自己監視学習によるインスタンス整合性機能の表現
InsCon:Instance Consistency Feature Representation via Self-Supervised Learning
自己監視学習による特徴表現は、画像レベルの対照学習で目覚ましい成功を収めており、画像分類タスクで印象的なパフォーマンスをもたらします。画像レベルの特徴表現は、主に単一インスタンスでの対照学習に焦点を当てていますが、オブジェクト検出やインスタンスセグメンテーションなどの口実とダウンストリーム予測タスク間の客観的な違いを無視しています。ダウンストリーム予測タスクでの特徴表現の力を完全に発揮するために、マルチインスタンス情報のキャプチャとオブジェクト認識のためのセルインスタンス特徴の抽出に専念するInsConと呼ばれる新しいエンドツーエンドの自己監視フレームワークを提案します。ローカリゼーション。一方では、InsConは、マルチインスタンス画像を入力として適用するターゲット学習パラダイムを構築し、学習した機能を対応するインスタンスビュー間で調整します。これにより、マルチインスタンス認識タスクにより適したものになります。一方、InsConは、セルインスタンスのプルとプッシュを導入します。これは、セルの一貫性を利用して、正確な境界のローカリゼーションのためにきめ細かい特徴表現を強化します。その結果、InsConは、意味的特徴表現に関するマルチインスタンスの一貫性と、空間的特徴表現に関するセルインスタンスの一貫性を学習します。実験は、私たちが提案した方法が、COCOオブジェクト検出で1.1%AP ^ bb、マスクR-CNN R50-FPNネットワーク構造を使用したCOCOインスタンスセグメンテーションで1.0%AP ^ mk、9万回の反復、PASCAL VOC異議で2.1%APbbを超える方法を示しています24k回の反復でより高速なR-CNNR50-C4ネットワーク構造を使用した検出。
Feature representation via self-supervised learning has reached remarkable success in image-level contrastive learning, which brings impressive performances on image classification tasks. While image-level feature representation mainly focuses on contrastive learning in single instance, it ignores the objective differences between pretext and downstream prediction tasks such as object detection and instance segmentation. In order to fully unleash the power of feature representation on downstream prediction tasks, we propose a new end-to-end self-supervised framework called InsCon, which is devoted to capturing multi-instance information and extracting cell-instance features for object recognition and localization. On the one hand, InsCon builds a targeted learning paradigm that applies multi-instance images as input, aligning the learned feature between corresponding instance views, which makes it more appropriate for multi-instance recognition tasks. On the other hand, InsCon introduces the pull and push of cell-instance, which utilizes cell consistency to enhance fine-grained feature representation for precise boundary localization. As a result, InsCon learns multi-instance consistency on semantic feature representation and cell-instance consistency on spatial feature representation. Experiments demonstrate the method we proposed surpasses MoCo v2 by 1.1% AP^bb on COCO object detection and 1.0% AP^mk on COCO instance segmentation using Mask R-CNN R50-FPN network structure with 90k iterations, 2.1% APbb on PASCAL VOC objection detection using Faster R-CNN R50-C4 network structure with 24k iterations.
updated: Tue Mar 15 2022 07:09:00 GMT+0000 (UTC)
published: Tue Mar 15 2022 07:09:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト