arXiv reaDer
AViNet: Diving Deep into Audio-Visual Saliency Prediction
視聴覚顕著性予測のためのAViNetアーキテクチャを提案します。 AViNetは、完全に畳み込みのエンコーダ-デコーダアーキテクチャです。エンコーダーは、行動認識のために学習された視覚的特徴と、オブジェクトやシーンを分類するように設計された聴覚ネットワークを介して学習された音声埋め込みを組み合わせたものです。デコーダーは、階層的特徴を組み合わせて、トリリニア補間と3D畳み込みを介して顕著性マップを推測します。全体的なアーキテクチャは、概念的に単純で因果関係があり、リアルタイム(60 fps)で実行されます。 AViNetは、AVEデータセットのCC、SIM、およびAUCメトリックでの人間のパフォーマンスを上回りながら、10個(オーディオビジュアル7個とビジュアルのみ3個)のデータセットで最先端のパフォーマンスを上回っています。視覚的機能は、既存のデータセットの顕著性を最大限に説明し、ソーシャルイベントなどの特定のコンテキストを除いて、音声のみがわずかな利益に貢献します。したがって、私たちの仕事は、視覚と聴覚の両方のモダリティが顕著性を補完的に促進する、現実を反映した顕著性データセットをキュレートする必要性を動機付けます。コードと事前トレーニング済みモデルは、で入手できます。
We propose the AViNet architecture for audiovisual saliency prediction. AViNet is a fully convolutional encoder-decoder architecture. The encoder combines visual features learned for action recognition, with audio embeddings learned via an aural network designed to classify objects and scenes. The decoder infers a saliency map via trilinear interpolation and 3D convolutions, combining hierarchical features. The overall architecture is conceptually simple, causal, and runs in real-time (60 fps). AViNet outperforms the state-of-the-art on ten (seven audiovisual and three visual-only) datasets while surpassing human performance on the CC, SIM, and AUC metrics for the AVE dataset. Visual features maximally account for saliency on existing datasets with audio-only contributing to minor gains, except in specific contexts like social events. Our work, therefore, motivates the need to curate saliency datasets reflective of real-life, where both the visual and aural modalities complimentarily drive saliency. Our code and pre-trained models are available at
updated: Fri Dec 11 2020 07:28:02 GMT+0000 (UTC)
published: Fri Dec 11 2020 07:28:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト