arXiv reaDer
VQAモデルの並べ替え:一貫性を向上させるための対照的な勾配学習
SOrT-ing VQA Models : Contrastive Gradient Learning for Improved Consistency
Visual Question Answering(VQA)の最近の調査では、最先端のモデルが世界の理解に一貫性がないことが明らかになりました。これらは、推論を必要とする一見難しい質問に正しく答えますが、関連する単純なサブ質問は間違っています。これらのサブ質問は、モデルが高レベルの質問に正しく答えるために理想的に理解する必要がある、画像内の低レベルの視覚的概念に関連しています。これに対処するために、最初に勾配ベースの解釈可能性アプローチを提示して、画像上の推論質問と最も強く相関する質問を決定し、これを使用して、推論に答えるために必要な関連サブ質問を識別する能力についてVQAモデルを評価します。質問。次に、サブ質問指向チューニング(SOrT)と呼ばれる対照的な勾配学習ベースのアプローチを提案します。これは、モデルが関連するサブ質問を関連しない質問よりも高くランク付けすることを奨励します。ペア。 SOrTは、モデルの一貫性を既存のベースラインよりも最大6.5%ポイント向上させると同時に、視覚的な接地も向上させることを示しています。
Recent research in Visual Question Answering (VQA) has revealed state-of-the-art models to be inconsistent in their understanding of the world -- they answer seemingly difficult questions requiring reasoning correctly but get simpler associated sub-questions wrong. These sub-questions pertain to lower level visual concepts in the image that models ideally should understand to be able to answer the higher level question correctly. To address this, we first present a gradient-based interpretability approach to determine the questions most strongly correlated with the reasoning question on an image, and use this to evaluate VQA models on their ability to identify the relevant sub-questions needed to answer a reasoning question. Next, we propose a contrastive gradient learning based approach called Sub-question Oriented Tuning (SOrT) which encourages models to rank relevant sub-questions higher than irrelevant questions for an pair. We show that SOrT improves model consistency by upto 6.5% points over existing baselines, while also improving visual grounding.
updated: Tue Dec 01 2020 02:11:13 GMT+0000 (UTC)
published: Tue Oct 20 2020 05:15:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト