arXiv reaDer
1つの単一画像での共顕著性検出のためのエンドツーエンドネットワーク
An End-to-End Network for Co-Saliency Detection in One Single Image
  一般的な視覚問題として、単一画像内の共顕著性検出は十分な注意を引き付けませんが、まだ十分に対処されていません。既存の方法は、ボトムアップ戦略に従って画像の共顕著性を推測することが多く、色や形などの視覚プリミティブを使用して顕著な領域が最初に検出され、次にグループ化されて共顕著性マップにマージされます。ただし、共顕著性は、人間の視覚にボトムアップおよびトップダウンの戦略を組み合わせた本質的に複雑な方法で認識されます。この問題に対処するために、バックボーンネットと2つのブランチネットを含む、新しいエンドツーエンドのトレーニング可能なネットワークがこのホワイトペーパーで提案されています。バックボーンネットは、顕著性予測のトップダウンガイダンスとしてグラウンドトゥルースマスクを使用しますが、2つのブランチネットは、フィーチャの組織化とクラスタリングのトリプレット提案を構築します。提案された方法を評価するために、各画像に共顕著性を持つ2,019枚の自然画像の新しいデータセットを構築します。実験結果は、提案された方法が28fpsの走行速度で最先端の精度を達成することを示しています。
As a common visual problem, co-saliency detection within a single image does not attract enough attention and yet has not been well addressed. Existing methods often follow a bottom-up strategy to infer co-saliency in an image, where salient regions are firstly detected using visual primitives such as color and shape, and then grouped and merged into a co-saliency map. However, co-saliency is intrinsically perceived in a complex manner with bottom-up and top-down strategies combined in human vision. To deal with this problem, a novel end-to-end trainable network is proposed in this paper, which includes a backbone net and two branch nets. The backbone net uses ground-truth masks as top-down guidance for saliency prediction, while the two branch nets construct triplet proposals for feature organization and clustering, which drives the network to be sensitive to co-salient regions in a bottom-up way. To evaluate the proposed method, we construct a new dataset of 2,019 nature images with co-saliency in each image. Experimental results show that the proposed method achieves a state-of-the-art accuracy with a running speed of 28fps.
updated: Fri Oct 25 2019 16:00:44 GMT+0000 (UTC)
published: Fri Oct 25 2019 16:00:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト