ビデオに関する自然な質問に答えることを学習する機械を設計するには、何が必要ですか?ビデオQAシステムは、同時に言語を理解し、視覚的なコンテンツを時空間で表現し、クエリ内のリンガルコンテンツに応じてこれらの表現を反復的に変換し、最終的に適切な回答に到達する必要があります。最近の言語と視覚による質問応答の進歩により、洗練された表現と神経推論メカニズムが可能になりましたが、ビデオQAの主要な課題は、推論プロセスをサポートするための概念、関係、アクションの動的な基盤にとどまっています。人間の推論のデュアルプロセスアカウントに触発されて、私たちはデュアルプロセスニューラルアーキテクチャを設計します。これは、質問ガイド付きビデオ処理モジュール(システム1、高速かつ反応型)に続いて一般的な推論モジュール(システム2、低速および審議)。システム1は、質問からのテキストによる手がかりを与えられたオブジェクト、アクション、および関係についての視覚パターンを時空間でエンコードする階層モデルです。エンコードされた表現は、システム2に渡される一連の高レベルの視覚的特徴です。ここで、マルチステップの推論に従って、テキスト要素の指示に従って視覚的要素を繰り返し連鎖させます。システムは、SVQA(合成)およびTGIF-QAデータセット(実際)で評価され、競争力のある結果を示します。複数ステップの推論の場合には大きなマージンがあります。
What does it take to design a machine that learns to answer natural questions about a video? A Video QA system must simultaneously understand language, represent visual content over space-time, and iteratively transform these representations in response to lingual content in the query, and finally arriving at a sensible answer. While recent advances in lingual and visual question answering have enabled sophisticated representations and neural reasoning mechanisms, major challenges in Video QA remain on dynamic grounding of concepts, relations and actions to support the reasoning process. Inspired by the dual-process account of human reasoning, we design a dual process neural architecture, which is composed of a question-guided video processing module (System 1, fast and reactive) followed by a generic reasoning module (System 2, slow and deliberative). System 1 is a hierarchical model that encodes visual patterns about objects, actions and relations in space-time given the textual cues from the question. The encoded representation is a set of high-level visual features, which are then passed to System 2. Here multi-step inference follows to iteratively chain visual elements as instructed by the textual elements. The system is evaluated on the SVQA (synthetic) and TGIF-QA datasets (real), demonstrating competitive results, with a large margin in the case of multi-step reasoning.