視覚的な質問応答の問題に取り組むためのモデルの開発には多くの作業が行われていますが、質問を画像の特徴に関連付けるこれらのモデルの機能については、まだ十分に検討されていません。さまざまな損失関数を使用したさまざまな特徴抽出方法の実証的研究を示します。 1つのグラウンドトゥルースのみを持つ複数の画像入力を使用した視覚的質問応答のタスク用の新しいデータセットを提案し、それらの結果をベンチマークします。スタックアテンションネットワークからインスピレーションを得た、Resnet + RCNN画像機能とBert埋め込みを利用した最終モデルでは、CLEVER + TinyImagenetデータセットで39%の単語精度と99%の画像精度が得られます。
While a lot of work has been done on developing models to tackle the problem of Visual Question Answering, the ability of these models to relate the question to the image features still remain less explored. We present an empirical study of different feature extraction methods with different loss functions. We propose New dataset for the task of Visual Question Answering with multiple image inputs having only one ground truth, and benchmark our results on them. Our final model utilising Resnet + RCNN image features and Bert embeddings, inspired from stacked attention network gives 39% word accuracy and 99% image accuracy on CLEVER+TinyImagenet dataset.