arXiv reaDer
Compact Trilinear Interaction for Visual Question Answering
  Visual Question Answering(VQA)では、回答は質問の意味と視覚的な内容と大きな相関関係があります。したがって、画像、質問と回答の情報を選択的に利用するために、これらの3つの入力間の高レベルの関連を同時に学習する新しいトライリニア相互作用モデルを提案します。さらに、相互作用の複雑さを克服するために、3つの入力間のトライリニア相互作用を効率的にパラメーター化するマルチモーダルテンソルベースのPARALIND分解を導入します。さらに、自由形式のオープンエンドVQAで初めて知識の蒸留が適用されます。これは、計算コストと必要なメモリを削減するためだけでなく、知識を3者間相互作用モデルから2者間相互作用モデルに転送するためでもあります。ベンチマークデータセットTDIUC、VQA-2.0、およびVisual7Wの広範な実験は、3つのデータセットすべてで単一のモデルを使用すると、提案されたコンパクトなトライリニア相互作用モデルが最先端の結果を達成することを示しています。
In Visual Question Answering (VQA), answers have a great correlation with question meaning and visual contents. Thus, to selectively utilize image, question and answer information, we propose a novel trilinear interaction model which simultaneously learns high level associations between these three inputs. In addition, to overcome the interaction complexity, we introduce a multimodal tensor-based PARALIND decomposition which efficiently parameterizes trilinear interaction between the three inputs. Moreover, knowledge distillation is first time applied in Free-form Opened-ended VQA. It is not only for reducing the computational cost and required memory but also for transferring knowledge from trilinear interaction model to bilinear interaction model. The extensive experiments on benchmarking datasets TDIUC, VQA-2.0, and Visual7W show that the proposed compact trilinear interaction model achieves state-of-the-art results when using a single model on all three datasets.
updated: Thu Sep 26 2019 04:02:38 GMT+0000 (UTC)
published: Thu Sep 26 2019 04:02:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト