arXiv reaDer
顕著性へのアクティベーション:教師なしの顕著なオブジェクト検出のための高品質ラベルの形成
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection
教師なし顕著な物体検出(USOD)は、産業用アプリケーションとダウンストリームタスクの両方にとって最も重要です。既存の深層学習(DL)ベースのUSOD手法は、いくつかの従来のSOD手法によって抽出された低品質の顕著性予測を顕著性キューとして利用します。これは、主に画像内のいくつかの目立つ領域をキャプチャします。さらに、それらは、他の関連する視覚タスクの教師あり学習によって訓練されたいくつかのモデルから得られる意味情報のアシスタントを使用して、これらの顕著性の手がかりを洗練します。この作業では、高品質の顕著性キューを効果的に生成し、これらのキューを使用して堅牢な顕著性検出器をトレーニングする2段階のActivation-to-Saliency(A2S)フレームワークを提案します。さらに重要なことに、トレーニングプロセス全体を通じて、フレームワークに人間の注釈が含まれていません。最初の段階では、事前トレーニングされたネットワーク(MoCo v2)を変換して、マルチレベルの機能を単一のアクティベーションマップに集約します。ここで、変換されたネットワークのトレーニングを支援するために適応決定境界(ADB)が提案されます。高品質の疑似ラベルの生成を容易にするために、ピクセルとその平均の間の特徴距離を拡大する損失関数を提案します。第2段階では、オンラインラベル修正(OLR)戦略により、トレーニングプロセス中に疑似ラベルが更新され、気を散らすものの悪影響が軽減されます。さらに、2つのResidual Attention Module(RAM)を使用して軽量の顕著性検出器を構築します。これは、エッジや色などの低レベルの特徴の補足情報を使用して高レベルの特徴を洗練します。いくつかのSODベンチマークでの広範な実験により、当社のフレームワークが既存のUSODメソッドと比較して大幅なパフォーマンスを報告していることが証明されています。さらに、3000枚の画像でフレームワークをトレーニングするには約1時間かかります。これは、以前の最先端の方法よりも30倍以上高速です。
Unsupervised Salient Object Detection (USOD) is of paramount significance for both industrial applications and downstream tasks. Existing deep-learning (DL) based USOD methods utilize some low-quality saliency predictions extracted by several traditional SOD methods as saliency cues, which mainly capture some conspicuous regions in images. Furthermore, they refine these saliency cues with the assistant of semantic information, which is obtained from some models trained by supervised learning in other related vision tasks. In this work, we propose a two-stage Activation-to-Saliency (A2S) framework that effectively generates high-quality saliency cues and uses these cues to train a robust saliency detector. More importantly, no human annotations are involved in our framework during the whole training process. In the first stage, we transform a pretrained network (MoCo v2) to aggregate multi-level features to a single activation map, where an Adaptive Decision Boundary (ADB) is proposed to assist the training of the transformed network. To facilitate the generation of high-quality pseudo labels, we propose a loss function to enlarges the feature distances between pixels and their means. In the second stage, an Online Label Rectifying (OLR) strategy updates the pseudo labels during the training process to reduce the negative impact of distractors. In addition, we construct a lightweight saliency detector using two Residual Attention Modules (RAMs), which refine the high-level features using the complementary information in low-level features, such as edges and colors. Extensive experiments on several SOD benchmarks prove that our framework reports significant performance compared with existing USOD methods. Moreover, training our framework on 3000 images consumes about 1 hour, which is over 30x faster than previous state-of-the-art methods.
updated: Wed Dec 08 2021 05:53:01 GMT+0000 (UTC)
published: Tue Dec 07 2021 11:54:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト