視覚的質問応答(VQA)は、さまざまな言語機能で構成されています。診断ベンチマークデータセットCLEVRは、in vitroでのカウント、比較、空間推論などの基本的な能力のモデルをより適切に評価および区別するのに役立つことにより、進歩を促進しました。このアプローチに従って、空間言語機能に焦点を当て、質問を調査します。単純な視覚空間関係を処理するための重要な要素は何ですか? SAN、RelNet、FiLM、およびMCモデルを調べ、空間関係のみに焦点を当てた診断データでの学習動作を評価します。比較分析とターゲットモデルの変更により、CNN-LSTMベースラインを大幅に改善するために本当に必要なものを特定します。
Visual question answering (VQA) comprises a variety of language capabilities. The diagnostic benchmark dataset CLEVR has fueled progress by helping to better assess and distinguish models in basic abilities like counting, comparing and spatial reasoning in vitro. Following this approach, we focus on spatial language capabilities and investigate the question: what are the key ingredients to handle simple visual-spatial relations? We look at the SAN, RelNet, FiLM and MC models and evaluate their learning behavior on diagnostic data which is solely focused on spatial relations. Via comparative analysis and targeted model modification we identify what really is required to substantially improve upon the CNN-LSTM baseline.