arXiv reaDer
クラッターの顕著なオブジェクト
Salient Objects in Clutter
このホワイトペーパーでは、既存の顕著なオブジェクト検出(SOD)データセットの深刻な設計バイアスを特定して対処します。これは、各画像に少なくとも1つの明確で整頓された顕著なオブジェクトが含まれていることを非現実的に想定しています。この設計バイアスにより、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスが飽和状態になりました。ただし、これらのモデルを実際のシーンに適用した場合、まだ満足のいくものではありません。分析に基づいて、新しい高品質のデータセットを提案し、以前の顕著性ベンチマークを更新します。具体的には、Salient Objects in Clutter(SOC)と呼ばれるデータセットには、いくつかの一般的なオブジェクトカテゴリからの顕著なオブジェクトと非顕著なオブジェクトの両方を含む画像が含まれています。オブジェクトカテゴリの注釈に加えて、各顕著な画像には、実際のシーンでの一般的な課題を反映する属性が付随しており、SODの問題に対するより深い洞察を提供するのに役立ちます。さらに、所与の顕著性エンコーダ、例えばバックボーンネットワークを用いて、既存の顕著性モデルは、トレーニング画像セットからトレーニンググラウンドトゥルースセットへのマッピングを達成するように設計されている。したがって、データセットを改善すると、デコーダーの設計のみに焦点を当てるよりもパフォーマンスが向上する可能性があると主張します。これを念頭に置いて、顕著な境界を暗黙的に強調するラベル平滑化、顕著性モデルをさまざまなシナリオに適応させるランダム画像拡張、小さなデータセットから学習するための正則化戦略としての自己教師あり学習など、いくつかのデータセット拡張戦略を調査します。私たちの広範な結果は、これらのトリックの有効性を示しています。また、SODの包括的なベンチマークも提供しています。これは、リポジトリhttp://dpfan.net/SOCBenchmarkにあります。
This paper identifies and addresses a serious design bias of existing salient object detection (SOD) datasets, which unrealistically assume that each image should contain at least one clear and uncluttered salient object. This design bias has led to a saturation in performance for state-of-the-art SOD models when evaluated on existing datasets. However, these models are still far from satisfactory when applied to real-world scenes. Based on our analyses, we propose a new high-quality dataset and update the previous saliency benchmark. Specifically, our dataset, called Salient Objects in Clutter (SOC), includes images with both salient and non-salient objects from several common object categories. In addition to object category annotations, each salient image is accompanied by attributes that reflect common challenges in real-world scenes, which can help provide deeper insight into the SOD problem. Further, with a given saliency encoder, e.g., the backbone network, existing saliency models are designed to achieve mapping from the training image set to the training ground-truth set. We, therefore, argue that improving the dataset can yield higher performance gains than focusing only on the decoder design. With this in mind, we investigate several dataset-enhancement strategies, including label smoothing to implicitly emphasize salient boundaries, random image augmentation to adapt saliency models to various scenarios, and self-supervised learning as a regularization strategy to learn from small datasets. Our extensive results demonstrate the effectiveness of these tricks. We also provide a comprehensive benchmark for SOD, which can be found in our repository: http://dpfan.net/SOCBenchmark.
updated: Fri May 07 2021 03:49:26 GMT+0000 (UTC)
published: Fri May 07 2021 03:49:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト