arXiv reaDer
VQA回答空間の意味構造の推定
Estimating semantic structure for the VQA answer space
登場以来、視覚的質問応答(VQA、つまり画像上に提示された質問に答える)は、事前に定義された一連の回答に対する分類問題として常に扱われてきました。その便利さにもかかわらず、この分類アプローチは、それらの間の類似性を考慮せずに、独立した提案間の選択に回答を制限する問題の意味論をあまり反映していません(たとえば、犬ではなく猫またはジャーマンシェパードに回答することに対して同様にペナルティを課します)。この問題に対処するには、(1)VQAクラス間の近接性の2つの測定値、および(2)推定された近接性を考慮した対応する損失を提案します。これにより、VQAモデルの一般化が大幅に改善され、言語バイアスが減少します。特に、3つの異なるVQAモデルで一貫した改善が可能であるため、このアプローチは完全にモデルにとらわれないことを示しています。最後に、私たちの方法と言語バイアス削減アプローチを組み合わせることにより、挑戦的なVQAv2-CPデータセットのSOTAレベルのパフォーマンスを報告します。
Since its appearance, Visual Question Answering (VQA, i.e. answering a question posed over an image), has always been treated as a classification problem over a set of predefined answers. Despite its convenience, this classification approach poorly reflects the semantics of the problem limiting the answering to a choice between independent proposals, without taking into account the similarity between them (e.g. equally penalizing for answering cat or German shepherd instead of dog). We address this issue by proposing (1) two measures of proximity between VQA classes, and (2) a corresponding loss which takes into account the estimated proximity. This significantly improves the generalization of VQA models by reducing their language bias. In particular, we show that our approach is completely model-agnostic since it allows consistent improvements with three different VQA models. Finally, by combining our method with a language bias reduction approach, we report SOTA-level performance on the challenging VQAv2-CP dataset.
updated: Thu Apr 08 2021 10:33:21 GMT+0000 (UTC)
published: Wed Jun 10 2020 08:32:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト