この論文では、視聴覚の深い顕著性の予測について研究しています。 「AVE」という名前の視聴覚アイトラッキングコーパスの構築に向けた取り組みと併せて、「DAVE」と呼ばれる動的顕著性予測のための概念的にシンプルで効果的なDeep Audio-Visual Embeddingを紹介します。知覚中の視線を誘導するための聴覚と視覚の手がかりの間に強い関係が存在するにもかかわらず、ビデオ顕著性モデルは視覚の手がかりのみを考慮し、動的な場面で遍在する聴覚情報を無視します。ここでは、ディープニューラルネットワークを使用して顕著性マップを予測する際に、視覚的なキューと組み合わせてオーディオキューの適用性を調査します。この目的のために、提案されたモデルは意図的に単純になるように設計されています。エンコーダー/デコーダーで構成される同じアーキテクチャーで2つのベースラインモデルが開発されています。エンコーダーは、特徴空間に入力を投影し、続いて顕著性を推測するデコーダーを投影します。さまざまなモダリティとマルチモデルの動的顕著性予測のさまざまな側面に関する広範な分析を実施します。私たちの結果は、(1)顕著性予測のための強力な寄与キューである、(2)顕著な視覚音源が視聴覚モデルの優位性の自然な原因である、(3)入力空間のリードのより豊かな特徴表現であることを示唆しています(4)オーディオビジュアルモデルは、最高のビジュアルモデル(ベースライン)によって予測されたフレームの53.54%以上を改善します。私たちの努力は、オーディオが動的なビデオ顕著性予測を促進し、モデルが人間のパフォーマンスに近づくのを助ける重要なキューであることを示しています。コードはhttps://github.com/hrtavakoli/DAVEで入手できます
This paper studies audio-visual deep saliency prediction. It introduces a conceptually simple and effective Deep Audio-Visual Embedding for dynamic saliency prediction dubbed ``DAVE" in conjunction with our efforts towards building an Audio-Visual Eye-tracking corpus named ``AVE". Despite existing a strong relation between auditory and visual cues for guiding gaze during perception, video saliency models only consider visual cues and neglect the auditory information that is ubiquitous in dynamic scenes. Here, we investigate the applicability of audio cues in conjunction with visual ones in predicting saliency maps using deep neural networks. To this end, the proposed model is intentionally designed to be simple. Two baseline models are developed on the same architecture which consists of an encoder-decoder. The encoder projects the input into a feature space followed by a decoder that infers saliency. We conduct an extensive analysis on different modalities and various aspects of multi-model dynamic saliency prediction. Our results suggest that (1) audio is a strong contributing cue for saliency prediction, (2) salient visible sound-source is the natural cause of the superiority of our Audio-Visual model, (3) richer feature representations for the input space leads to more powerful predictions even in absence of more sophisticated saliency decoders, and (4) Audio-Visual model improves over 53.54% of the frames predicted by the best Visual model (our baseline). Our endeavour demonstrates that audio is an important cue that boosts dynamic video saliency prediction and helps models to approach human performance. The code is available at https://github.com/hrtavakoli/DAVE