arXiv reaDer
SID4VAM: A Benchmark Dataset with Synthetic Images for Visual Attention Modeling
 合成画像データセットを使用した顕著性モデルのパフォーマンスのベンチマークが提供されます。モデルのパフォーマンスは、顕著性の指標だけでなく、モデルのインスピレーションと人間の心理物理学との一貫性の影響によって評価されます。 SID4VAMは、既知の顕著な領域を持つ230の合成画像で構成されています。画像は、15種類の低レベルフィーチャ(方向、明るさ、色、サイズなど)で生成され、ターゲットディストラクタポップアウトタイプの合成パターンを使用しました。 Free-ViewingおよびVisual Searchのタスク指示と、各機能カテゴリの7つの機能コントラストを使用しました。私たちの研究は、最先端のディープラーニング顕著性モデルは合成パターン画像ではうまく機能せず、代わりにスペクトル/フーリエインスピレーションを備えたモデルが顕著性指標で他のパフォーマンスを上回り、人間の心理物理実験とより一貫していることを明らかにしています。この研究では、以前の視線追跡画像データセットとは異なる独自の低レベルの特徴コンテキストを持つ合成画像を考慮して、今後の文献で顕著性モデルを評価する新しい方法を提案します。
A benchmark of saliency models performance with a synthetic image dataset is provided. Model performance is evaluated through saliency metrics as well as the influence of model inspiration and consistency with human psychophysics. SID4VAM is composed of 230 synthetic images, with known salient regions. Images were generated with 15 distinct types of low-level features (e.g. orientation, brightness, color, size...) with a target-distractor pop-out type of synthetic patterns. We have used Free-Viewing and Visual Search task instructions and 7 feature contrasts for each feature category. Our study reveals that state-of-the-art Deep Learning saliency models do not perform well with synthetic pattern images, instead, models with Spectral/Fourier inspiration outperform others in saliency metrics and are more consistent with human psychophysical experimentation. This study proposes a new way to evaluate saliency models in the forthcoming literature, accounting for synthetic images with uniquely low-level feature contexts, distinct from previous eye tracking image datasets.
updated: Tue Oct 29 2019 03:29:36 GMT+0000 (UTC)
published: Tue Oct 29 2019 03:29:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト