arXiv reaDer
必要なものに参加する:ビデオの質問応答のためのモーションアピアランス相乗ネットワーク
Attend What You Need: Motion-Appearance Synergistic Networks for Video Question Answering
ビデオの質問応答は、AIエージェントがビデオに基づいた質問に回答する必要があるタスクです。このタスクには、(1)さまざまな質問の意図を理解する、(2)入力ビデオのさまざまな要素(オブジェクト、アクション、因果関係など)をキャプチャする、(3)言語と視覚情報の間のクロスモーダルグラウンディングという3つの重要な課題が伴います。 。モーションとアピアランスの情報に基づいた2つのクロスモーダル機能を組み込み、質問の意図に応じてそれらを選択的に利用するモーションアピアランス相乗ネットワーク(MASN)を提案します。 MASNは、モーションモジュール、アピアランスモジュール、およびモーションアピアランスフュージョンモジュールで構成されています。モーションモジュールはアクション指向のクロスモーダルジョイント表現を計算し、アピアランスモジュールは入力ビデオのアピアランスの側面に焦点を合わせます。最後に、モーションアピアランスフュージョンモジュールは、モーションモジュールとアピアランスモジュールの各出力を入力として受け取り、質問に基づくフュージョンを実行します。その結果、MASNは、TGIF-QAおよびMSVD-QAデータセットで新しい最先端のパフォーマンスを実現します。また、MASNの推論結果を可視化して定性分析を行っています。コードはhttps://github.com/ahjeongseo/MASN-pytorchで入手できます。
Video Question Answering is a task which requires an AI agent to answer questions grounded in video. This task entails three key challenges: (1) understand the intention of various questions, (2) capturing various elements of the input video (e.g., object, action, causality), and (3) cross-modal grounding between language and vision information. We propose Motion-Appearance Synergistic Networks (MASN), which embed two cross-modal features grounded on motion and appearance information and selectively utilize them depending on the question's intentions. MASN consists of a motion module, an appearance module, and a motion-appearance fusion module. The motion module computes the action-oriented cross-modal joint representations, while the appearance module focuses on the appearance aspect of the input video. Finally, the motion-appearance fusion module takes each output of the motion module and the appearance module as input, and performs question-guided fusion. As a result, MASN achieves new state-of-the-art performance on the TGIF-QA and MSVD-QA datasets. We also conduct qualitative analysis by visualizing the inference results of MASN. The code is available at https://github.com/ahjeongseo/MASN-pytorch.
updated: Sat Jun 19 2021 07:48:55 GMT+0000 (UTC)
published: Sat Jun 19 2021 07:48:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト