arXiv reaDer
マルチレベルの注意を払った逆視覚的質問応答
Inverse Visual Question Answering with Multi-Level Attentions
この論文では、逆視覚的質問応答に対処するための新しい深いマルチレベル注意モデルを提案します。提案されたモデルは、オブジェクトレベルで地域の視覚的および意味的特徴を生成し、注意メカニズムを使用して回答キューでそれらを強化します。モデルでは、部分的な質問のエンコードステップでの二重注意と次の質問単語生成ステップでの動的な注意を含む、2つのレベルの複数の注意が採用されています。提案されたモデルをVQAV1データセットで評価します。これは、一般的に使用される複数のメトリックの観点から、最先端のパフォーマンスを示しています。
In this paper, we propose a novel deep multi-level attention model to address inverse visual question answering. The proposed model generates regional visual and semantic features at the object level and then enhances them with the answer cue by using attention mechanisms. Two levels of multiple attentions are employed in the model, including the dual attention at the partial question encoding step and the dynamic attention at the next question word generation step. We evaluate the proposed model on the VQA V1 dataset. It demonstrates state-of-the-art performance in terms of multiple commonly used metrics.
updated: Thu Dec 03 2020 00:13:21 GMT+0000 (UTC)
published: Tue Sep 17 2019 04:41:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト