arXiv reaDer
局所的な顕著性コヒーレンスを備えた構造一貫性のある弱く監視された顕著な物体検出
Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence
近年、スパースラベルが注目されています。ただし、弱教師ありと完全教師ありの顕著な物体検出方法の間のパフォーマンスのギャップは非常に大きく、以前の弱教師ありの作品のほとんどは、多くのベルとホイッスルを備えた複雑なトレーニング方法を採用しています。この作業では、前処理/後処理操作や追加の監視データを使用せずに、落書き注釈を介して弱く監視された顕著なオブジェクトを検出するための1ラウンドのエンドツーエンドトレーニングアプローチを提案します。落書きラベルは詳細な顕著な領域を提供できないため、完全なオブジェクト構造を持つ統合された顕著な領域を予測するために、画像の特徴とピクセル距離に基づいてラベルをラベルのない領域に伝播するローカルコヒーレンス損失を提案します。一貫性のある顕著性マップが入力と同じ画像の異なるスケールで予測されることを保証する自己無撞着メカニズムとして顕著性構造の一貫性損失を設計します。これは、モデルの一般化能力を強化するための正則化手法と見なすことができます。さらに、デコーダーがさまざまな情報を集約するために、高レベルの機能、低レベルの機能、およびグローバルコンテキスト情報をより適切に統合するための集約モジュール(AGGM)を設計します。広範な実験により、私たちの方法は、6つのベンチマーク(ECSSDデータセットの場合:F_β= 0.8995、E_ξ= 0.9079、MAE = 0.0489 $など)で新しい最先端のパフォーマンスを達成し、Fの平均ゲインは4.60%であることが示されています。 -メジャー、Eメジャーで2.05%、MAEで1.88%、このタスクの以前の最良の方法よりも優れています。ソースコードはhttp://github.com/siyueyu/SCWSSODで入手できます。
Sparse labels have been attracting much attention in recent years. However, the performance gap between weakly supervised and fully supervised salient object detection methods is huge, and most previous weakly supervised works adopt complex training methods with many bells and whistles. In this work, we propose a one-round end-to-end training approach for weakly supervised salient object detection via scribble annotations without pre/post-processing operations or extra supervision data. Since scribble labels fail to offer detailed salient regions, we propose a local coherence loss to propagate the labels to unlabeled regions based on image features and pixel distance, so as to predict integral salient regions with complete object structures. We design a saliency structure consistency loss as self-consistent mechanism to ensure consistent saliency maps are predicted with different scales of the same image as input, which could be viewed as a regularization technique to enhance the model generalization ability. Additionally, we design an aggregation module (AGGM) to better integrate high-level features, low-level features and global context information for the decoder to aggregate various information. Extensive experiments show that our method achieves a new state-of-the-art performance on six benchmarks (e.g. for the ECSSD dataset: F_β= 0.8995, E_ξ= 0.9079 and MAE = 0.0489$), with an average gain of 4.60% for F-measure, 2.05% for E-measure and 1.88% for MAE over the previous best method on this task. Source code is available at http://github.com/siyueyu/SCWSSOD.
updated: Wed Dec 09 2020 03:22:46 GMT+0000 (UTC)
published: Tue Dec 08 2020 12:49:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト