モデルアーキテクチャの改善により、ビジュアルクエスチョンアンサーのタスクが急速に進歩しました。残念なことに、これらのモデルは、展開のための深刻な課題をもたらすその巨大なサイズのために、通常、計算集約的です。ビジュアルクエスチョンアンサー(VQA)の特定のタスクでこの問題に取り組むことを目指しています。畳み込みニューラルネットワーク(CNN)は、VQAモデルの視覚処理パイプラインの不可欠な部分です(CNNがVQAモデル全体とともにトレーニングされると仮定)。このプロジェクトでは、CNNモジュールに焦点を当てたVQAタスク用の効率的でモジュール式のニューラルアーキテクチャを提案します。私たちの実験は、まばらに活性化されたCNNベースのVQAモデルが、標準CNNベースのVQAモデルアーキテクチャに匹敵するパフォーマンスを達成することを示しています。
There has been a rapid progress in the task of Visual Question Answering with improved model architectures. Unfortunately, these models are usually computationally intensive due to their sheer size which poses a serious challenge for deployment. We aim to tackle this issue for the specific task of Visual Question Answering (VQA). A Convolutional Neural Network (CNN) is an integral part of the visual processing pipeline of a VQA model (assuming the CNN is trained along with entire VQA model). In this project, we propose an efficient and modular neural architecture for the VQA task with focus on the CNN module. Our experiments demonstrate that a sparsely activated CNN based VQA model achieves comparable performance to a standard CNN based VQA model architecture.