arXiv reaDer
MM-Pyramid:視聴覚イベントのローカリゼーションとビデオ解析のためのマルチモーダルピラミッド注意ネットワーク
MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing
ビデオ内のイベントを認識してローカライズすることは、ビデオを理解するための基本的なタスクです。イベントは聴覚および視覚のモダリティで発生する可能性があるため、シーンを完全に理解するには、マルチモーダルの詳細な知覚が不可欠です。これまでのほとんどの作品は、全体論的な観点からビデオを分析しようとしました。ただし、複数のスケールでセマンティック情報を考慮しないため、モデルでさまざまな長さのイベントをローカライズすることが困難になります。この論文では、視聴覚イベントのローカリゼーションと視聴覚ビデオの解析のためのマルチレベルの時間的特徴をキャプチャして統合するマルチモーダルピラミッド注意ネットワーク(MM-Pyramid)を紹介します。具体的には、まず、気配りのある機能ピラミッドモジュールを提案します。このモジュールは、いくつかのスタッキングピラミッドユニットを介して一時的なピラミッドの特徴をキャプチャします。各ユニットは、固定サイズのアテンションブロックと拡張された畳み込みブロックで構成されています。また、ユニットレベルの注意ブロックと選択的融合ブロックを活用してピラミッド機能をインタラクティブに統合する適応セマンティック融合モジュールも設計します。視聴覚イベントのローカリゼーションと弱く監視された視聴覚ビデオ解析タスクに関する広範な実験により、私たちのアプローチの有効性が検証されます。
Recognizing and localizing events in videos is a fundamental task for video understanding. Since events may occur in auditory and visual modalities, multimodal detailed perception is essential for complete scene comprehension. Most previous works attempted to analyze videos from a holistic perspective. However, they do not consider semantic information at multiple scales, which makes the model difficult to localize events in various lengths. In this paper, we present a Multimodal Pyramid Attentional Network (MM-Pyramid) that captures and integrates multi-level temporal features for audio-visual event localization and audio-visual video parsing. Specifically, we first propose the attentive feature pyramid module. This module captures temporal pyramid features via several stacking pyramid units, each of them is composed of a fixed-size attention block and dilated convolution block. We also design an adaptive semantic fusion module, which leverages a unit-level attention block and a selective fusion block to integrate pyramid features interactively. Extensive experiments on audio-visual event localization and weakly-supervised audio-visual video parsing tasks verify the effectiveness of our approach.
updated: Wed Nov 24 2021 09:47:26 GMT+0000 (UTC)
published: Wed Nov 24 2021 09:47:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト