arXiv reaDer
質問回答トレーニングのないVQA
VQA with no questions-answers training
 視覚的な質問に答えるように機械を教える方法は近年大きな進歩を遂げましたが、現在の方法は、新しい視覚的なクラスと概念をモジュラー方式で統合し、答えの説明を提供し、明示的な例なしに新しいドメインを処理するなど、重要な人間の能力をまだ欠いています。私たちは、質問グラフの抽象的な構造によって導かれる質問グラフ表現の生成と応答手順の2つの主要な部分からなる新しい方法を提案します。言語部分と視覚部分のトレーニングは独自に実行されますが、既存のスキームとは異なり、この方法では、質問と回答が関連付けられた画像を使用したトレーニングは必要ありません。このアプローチは、対応する視覚的推定量が利用可能である限り、新しいドメイン(拡張質問タイプと新しいオブジェクトクラス、プロパティ、および関係)を処理できます。さらに、それは答えに説明を提供し、質問が画像に基づいていない場合に代替案を提案できます。このアプローチは、質問と回答のトレーニングなしで、高いパフォーマンスとドメイン拡張性の両方を実現することを示しています。
Methods for teaching machines to answer visual questions have made significant progress in recent years, but current methods still lack important human capabilities, including integrating new visual classes and concepts in a modular manner, providing explanations for the answers and handling new domains without explicit examples. We propose a novel method that consists of two main parts: generating a question graph representation, and an answering procedure, guided by the abstract structure of the question graph to invoke an extendable set of visual estimators. Training is performed for the language part and the visual part on their own, but unlike existing schemes, the method does not require any training using images with associated questions and answers. This approach is able to handle novel domains (extended question types and new object classes, properties and relations) as long as corresponding visual estimators are available. In addition, it can provide explanations to its answers and suggest alternatives when questions are not grounded in the image. We demonstrate that this approach achieves both high performance and domain extensibility without any questions-answers training.
updated: Tue May 26 2020 09:53:47 GMT+0000 (UTC)
published: Tue Nov 20 2018 20:52:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト