arXiv reaDer
ノイズを意識したビデオ顕著性予測
Noise-Aware Video Saliency Prediction
ダイナミックシーンのビデオの顕著性マップを予測する問題に取り組んでいます。一定数の観測者の視線データから再構築されたマップの精度は、シーンのコンテンツに依存するため、フレームによって異なることに注意してください。この問題は、限られた数のオブザーバーが利用できる場合に特に差し迫っています。このような場合、従来の深層学習法のように、予測された顕著性マップと測定された顕著性マップの間の不一致を直接最小化すると、ノイズの多いデータに過剰適合します。フレーム固有の注視データの不正確さから生じる不確実性を定量化して説明するノイズ認識トレーニング(NAT)パラダイムを提案します。さまざまなモデル、損失関数、およびデータセットにわたる実験で、限られたトレーニングデータが利用可能な場合、NATが特に有利であることを示します。また、豊富な時間的セマンティクスとフレームごとの複数の注視アトラクタを備えた、ビデオゲームベースの顕著性データセットを紹介します。データセットとソースコードはhttps://github.com/NVlabs/NAT-saliencyで入手できます。
We tackle the problem of predicting saliency maps for videos of dynamic scenes. We note that the accuracy of the maps reconstructed from the gaze data of a fixed number of observers varies with the frame, as it depends on the content of the scene. This issue is particularly pressing when a limited number of observers are available. In such cases, directly minimizing the discrepancy between the predicted and measured saliency maps, as traditional deep-learning methods do, results in overfitting to the noisy data. We propose a noise-aware training (NAT) paradigm that quantifies and accounts for the uncertainty arising from frame-specific gaze data inaccuracy. We show that NAT is especially advantageous when limited training data is available, with experiments across different models, loss functions, and datasets. We also introduce a video game-based saliency dataset, with rich temporal semantics, and multiple gaze attractors per frame. The dataset and source code are available at https://github.com/NVlabs/NAT-saliency.
updated: Mon Nov 22 2021 05:38:36 GMT+0000 (UTC)
published: Fri Apr 16 2021 11:32:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト