Disentangled High Quality Salient Object Detection
視覚シーンから最も特徴的なオブジェクトを発見して特定することを目的とした、顕著なオブジェクト検出(SOD)は、さまざまなコンピュータービジョンシステムで重要な役割を果たします。高解像度の時代に入ると、SODメソッドは新しい課題に直面しています。以前の方法の主な制限は、低解像度での単一の回帰タスクと同時に、顕著な領域を識別し、正確なオブジェクトの境界を推定しようとすることです。この方法では、2つの難しい問題の本質的な違いが無視され、検出品質が低下します。本論文では、高解像度SODタスクのための新しい深層学習フレームワークを提案します。これは、タスクを低解像度顕著性分類ネットワーク(LRSCN)と高解像度リファインメントネットワーク(HRRN)に解きほぐします。ピクセル単位の分類タスクとして、LRSCNは、明確な顕著な背景、不確実な画像領域を識別するために、低解像度で十分なセマンティクスをキャプチャするように設計されています。 HRRNは回帰タスクであり、不確実な領域のピクセルの顕著性値を正確に調整して、限られたGPUメモリで高解像度で明確なオブジェクト境界を維持することを目的としています。トレーニングプロセスに不確実性を導入することにより、HRRNは、高解像度のトレーニングデータを使用せずに、高解像度の改良タスクに適切に対処できることは注目に値します。高解像度の顕著性データセットといくつかの広く使用されている顕著性ベンチマークに関する広範な実験は、提案された方法が最先端の方法と比較して優れたパフォーマンスを達成することを示しています。
Aiming at discovering and locating most distinctive objects from visual scenes, salient object detection (SOD) plays an essential role in various computer vision systems. Coming to the era of high resolution, SOD methods are facing new challenges. The major limitation of previous methods is that they try to identify the salient regions and estimate the accurate objects boundaries simultaneously with a single regression task at low-resolution. This practice ignores the inherent difference between the two difficult problems, resulting in poor detection quality. In this paper, we propose a novel deep learning framework for high-resolution SOD task, which disentangles the task into a low-resolution saliency classification network (LRSCN) and a high-resolution refinement network (HRRN). As a pixel-wise classification task, LRSCN is designed to capture sufficient semantics at low-resolution to identify the definite salient, background and uncertain image regions. HRRN is a regression task, which aims at accurately refining the saliency value of pixels in the uncertain region to preserve a clear object boundary at high-resolution with limited GPU memory. It is worth noting that by introducing uncertainty into the training process, our HRRN can well address the high-resolution refinement task without using any high-resolution training data. Extensive experiments on high-resolution saliency datasets as well as some widely used saliency benchmarks show that the proposed method achieves superior performance compared to the state-of-the-art methods.
