ビデオ質問応答のための新しい注意モデルを提案します。アテンションモデルの主なアイデアは、視覚データの最も有益な部分を見つけることです。注意メカニズムは最近非常に人気があります。ただし、ほとんどの既存の視覚的注意メカニズムは、質問全体を考慮しています。各単語は異なる注意を払うことができ、いくつかの単語は注意を必要としない単語レベルのセマンティクスを無視します。また、文の意味構造も考慮しません。ビデオ質問応答の拡張ソフトアテンション(E-SA)モデルは単語レベルのアテンションを活用しますが、長い質問文ではパフォーマンスが低下します。本稿では、ビデオ質問応答のための異種ツリー構造メモリネットワーク(HTreeMN)を提案します。提案されたアプローチは、質問文の構文解析木に基づいています。 HTreeMNは、\ textit {ビジュアルワードがアテンションモジュールで処理され、\ textit {バーバルワードが処理されない場合、ワードを異なる方法で処理します。また、構文解析ツリーの再帰構造に基づいて近傍を結合することにより、文の意味構造を利用します。言葉とビデオの理解は、葉から根へと伝播され、融合されます。さらに、注目される機能を抽出するために、階層的な注意メカニズムを構築します。 2つのデータセットに対するアプローチを評価します。実験結果は、特に複雑な質問に関して、他の注意モデルに対するHTreeMNモデルの優位性を示しています。コードはgithubで入手できます。コードはhttps://github.com/ZJULearning/TreeAttentionで入手できます
We propose a new attention model for video question answering. The main idea of the attention models is to locate on the most informative parts of the visual data. The attention mechanisms are quite popular these days. However, most existing visual attention mechanisms regard the question as a whole. They ignore the word-level semantics where each word can have different attentions and some words need no attention. Neither do they consider the semantic structure of the sentences. Although the Extended Soft Attention (E-SA) model for video question answering leverages the word-level attention, it performs poorly on long question sentences. In this paper, we propose the heterogeneous tree-structured memory network (HTreeMN) for video question answering. Our proposed approach is based upon the syntax parse trees of the question sentences. The HTreeMN treats the words differently where the \textit{visual words are processed with an attention module and the \textit{verbal ones not. It also utilizes the semantic structure of the sentences by combining the neighbors based on the recursive structure of the parse trees. The understandings of the words and the videos are propagated and merged from leaves to the root. Furthermore, we build a hierarchical attention mechanism to distill the attended features. We evaluate our approach on two datasets. The experimental results show the superiority of our HTreeMN model over the other attention models especially on complex questions. Our code is available on github. Our code is available at https://github.com/ZJULearning/TreeAttention