DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue
 画像に関する1つの質問のみに回答する必要がある視覚質問回答タスクとは異なり、Visual Dialogueは、オブジェクト、関係、またはセマンティクスに関連する可能性のある幅広い視覚コンテンツをカバーする複数の質問を含みます。したがって、Visual Dialogueタスクの主な課題は、より多様で意味のある画像表現を学習することです。これは、さまざまな質問の画像に適応的な注意を向けることができます。本研究では、視覚と意味の両方の観点から画像を描くための新しいモデルを提案します。具体的には、ビジュアルビューはオブジェクトとその関係を含む外観レベルの情報をキャプチャするのに役立ち、セマンティックビューはエージェントが画像全体からローカル領域までの高レベルの視覚セマンティクスを理解できるようにします。さらに、このようなマルチビュー画像の特徴の上に、きめ細かいレベルで階層的に質問関連情報を適応的にキャプチャできる特徴選択フレームワークを提案します。提案された方法は、ベンチマークVisual Dialogueデータセットで最先端の結果を達成しました。さらに重要なことは、ゲート値を視覚化することで、どのモダリティ(視覚的またはセマンティック)が現在の質問への回答に貢献しているのかを知ることができることです。 Visual Dialogueで人間の認知を理解する上での洞察を与えてくれます。
Different from Visual Question Answering task that requires to answer only one question about an image, Visual Dialogue involves multiple questions which cover a broad range of visual content that could be related to any objects, relationships or semantics. The key challenge in Visual Dialogue task is thus to learn a more comprehensive and semantic-rich image representation which may have adaptive attentions on the image for variant questions. In this research, we propose a novel model to depict an image from both visual and semantic perspectives. Specifically, the visual view helps capture the appearance-level information, including objects and their relationships, while the semantic view enables the agent to understand high-level visual semantics from the whole image to the local regions. Futhermore, on top of such multi-view image features, we propose a feature selection framework which is able to adaptively capture question-relevant information hierarchically in fine-grained level. The proposed method achieved state-of-the-art results on benchmark Visual Dialogue datasets. More importantly, we can tell which modality (visual or semantic) has more contribution in answering the current question by visualizing the gate values. It gives us insights in understanding of human cognition in Visual Dialogue.
updated: Sun Nov 17 2019 14:58:17 GMT+0000 (UTC)
published: Sun Nov 17 2019 14:58:17 GMT+0000 (UTC)
