arXiv reaDer
エネルギーベースの生成的協調的顕著性予測
Energy-Based Generative Cooperative Saliency Prediction
従来の顕著性予測モデルは、通常、画像からその顕著性マップへの決定論的マッピングを学習するため、人間の注意の主観的な性質を説明できません。本論文では、視覚的顕著性の不確実性をモデル化するために、入力画像を与えられた顕著性マップ上の条件付き確率分布を学習し、顕著性予測をサンプリングプロセスとして扱うことにより、生成モデルの観点から顕著性予測問題を研究します。分布を学びました。具体的には、条件付き潜在変数モデル(LVM)と条件付きエネルギーベースモデル(EBM)を共同でトレーニングして、顕著オブジェクトを協調的に予測する、生成的協調顕著性予測フレームワークを提案します。 LVMは、初期の顕著性マップを効率的に生成するための高速で粗い予測子として機能します。その後、低速でありながら細かい予測子として機能するEBMの反復Langevinリビジョンによって改良されます。このような粗いものから細かいものへの協調的顕著性予測戦略は、両方の長所を提供します。さらに、「回復中の協調学習」戦略を提案し、トレーニング画像の顕著性注釈が部分的に観察される弱教師あり顕著性予測に適用します。最後に、EBMで学習されたエネルギー関数は、他の事前トレーニングされた顕著性予測モデルの結果を改良できる改良モジュールとして機能できることがわかります。実験結果は、私たちのモデルが画像の多様でもっともらしい顕著性マップのセットを生成し、完全に監視された顕著性予測タスクと弱く監視された顕著性予測タスクの両方で最先端のパフォーマンスを取得できることを示しています。
Conventional saliency prediction models typically learn a deterministic mapping from an image to its saliency map, and thus fail to explain the subjective nature of human attention. In this paper, to model the uncertainty of visual saliency, we study the saliency prediction problem from the perspective of generative models by learning a conditional probability distribution over the saliency map given an input image, and treating the saliency prediction as a sampling process from the learned distribution. Specifically, we propose a generative cooperative saliency prediction framework, where a conditional latent variable model (LVM) and a conditional energy-based model (EBM) are jointly trained to predict salient objects in a cooperative manner. The LVM serves as a fast but coarse predictor to efficiently produce an initial saliency map, which is then refined by the iterative Langevin revision of the EBM that serves as a slow but fine predictor. Such a coarse-to-fine cooperative saliency prediction strategy offers the best of both worlds. Moreover, we propose a "cooperative learning while recovering" strategy and apply it to weakly supervised saliency prediction, where saliency annotations of training images are partially observed. Lastly, we find that the learned energy function in the EBM can serve as a refinement module that can refine the results of other pre-trained saliency prediction models. Experimental results show that our model can produce a set of diverse and plausible saliency maps of an image, and obtain state-of-the-art performance in both fully supervised and weakly supervised saliency prediction tasks.
updated: Thu Jun 23 2022 08:26:56 GMT+0000 (UTC)
published: Fri Jun 25 2021 02:11:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト