arXiv reaDer
教師なし顕著な物体検出のための外観誘導の注意深い自己ペース学習
Appearance-guided Attentive Self-Paced Learning for Unsupervised Salient Object Detection
既存の深層学習ベース(DLベース)の教師なし顕著オブジェクト検出(USOD)メソッドは、従来の顕著性メソッドと事前にトレーニングされたディープネットワークの事前知識に基づいて、画像内の顕著性情報を学習します。ただし、これらの方法では、単純な学習戦略を使用して深いネットワークをトレーニングするため、トレーニングサンプルの「隠された」情報を学習プロセスに適切に組み込むことができません。さらに、オブジェクトのセグメント化に不可欠な外観情報は、ネットワークトレーニングプロセスの後のプロセスとしてのみ使用されます。これらの2つの問題に対処するために、教師なしの顕著なオブジェクト検出のための新しい外観ガイド付きの注意深い自己ペース学習フレームワークを提案します。提案されたフレームワークは、自己ペース学習(SPL)と外観ガイダンスの両方を統合学習フレームワークに統合します。具体的には、最初の問題として、トレーニングサンプルを意味のある順序で編成し、徐々に詳細な顕著性情報を発掘する、注意深い自己ペース学習(ASPL)パラダイムを提案します。 ASPLは、純粋に自己学習的な方法でサンプルをトレーニングすることの学習の難しさを測定するソフトアテンションウェイトを自動的に生成できるフレームワークを促進します。 2番目の問題では、外観ガイダンスモジュール(AGM)を提案します。これは、各ピクセルの局所的な外観コントラストを顕著性境界の確率として定式化し、確率を最大化することによってターゲットオブジェクトの潜在的な境界を見つけます。さらに、深度マップ、熱画像、オプティカルフローなど、他のモダリティデータの外観ベクトルを集約することにより、フレームワークを他のマルチモダリティSODタスクにさらに拡張します。 RGB、RGB-D、RGB-T、およびビデオSODベンチマークに関する広範な実験により、当社のフレームワークが既存のUSODメソッドに対して最先端のパフォーマンスを実現し、最新の監視対象SODメソッドに匹敵することが証明されています。
Existing Deep-Learning-based (DL-based) Unsupervised Salient Object Detection (USOD) methods learn saliency information in images based on the prior knowledge of traditional saliency methods and pretrained deep networks. However, these methods employ a simple learning strategy to train deep networks and therefore cannot properly incorporate the "hidden" information of the training samples into the learning process. Moreover, appearance information, which is crucial for segmenting objects, is only used as post-process after the network training process. To address these two issues, we propose a novel appearance-guided attentive self-paced learning framework for unsupervised salient object detection. The proposed framework integrates both self-paced learning (SPL) and appearance guidance into a unified learning framework. Specifically, for the first issue, we propose an Attentive Self-Paced Learning (ASPL) paradigm that organizes the training samples in a meaningful order to excavate gradually more detailed saliency information. Our ASPL facilitates our framework capable of automatically producing soft attention weights that measure the learning difficulty of training samples in a purely self-learning way. For the second issue, we propose an Appearance Guidance Module (AGM), which formulates the local appearance contrast of each pixel as the probability of saliency boundary and finds the potential boundary of the target objects by maximizing the probability. Furthermore, we further extend our framework to other multi-modality SOD tasks by aggregating the appearance vectors of other modality data, such as depth map, thermal image or optical flow. Extensive experiments on RGB, RGB-D, RGB-T and video SOD benchmarks prove that our framework achieves state-of-the-art performance against existing USOD methods and is comparable to the latest supervised SOD methods.
updated: Wed Jul 13 2022 02:01:07 GMT+0000 (UTC)
published: Wed Jul 13 2022 02:01:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト