現代の視覚的推論システムの現在の成功は、おそらくクロスモダリティ注意メカニズムに起因しています。ただし、VQAなどの意図的な推論では、注意は各ステップで制約されないため、推論に関連する情報を選択することを目的とした意味操作ではなく、統計的プーリングメカニズムとして機能する場合があります。これは、トレーニング時に、推論チェーンの最後にある非常にまばらな信号(つまり回答ラベル)によってのみ注意が誘導されるためです。これにより、クロスモダリティの注意の重みが、目的の視覚言語のバインディングから逸脱します。この逸脱を是正するために、明示的な言語視覚的根拠を使用して注意メカニズムを導くことを提案します。この根拠は、クエリ内の構造化された言語概念を視覚オブジェクト間の指示対象に接続することによって導き出されます。ここでは、回答の注釈や外部の接地監視を必要とせずに、質問と画像のペアだけから接地を学習します。この接地は、メカニズムの二重性を通じてVQAモデル内の注意メカニズムをガイドします。つまり、注意の重みの計算を事前にトレーニングし、ケースバイケースで推論時に重みを直接ガイドします。結果として得られるアルゴリズムは、注意ベースの推論モデルを精査し、関連する関連知識を注入し、コア推論プロセスを調整することができます。このスケーラブルな拡張機能により、VQAモデルのパフォーマンスが向上し、監視対象データへの制限されたアクセスに対する堅牢性が強化され、解釈可能性が向上します。
The current success of modern visual reasoning systems is arguably attributed to cross-modality attention mechanisms. However, in deliberative reasoning such as in VQA, attention is unconstrained at each step, and thus may serve as a statistical pooling mechanism rather than a semantic operation intended to select information relevant to inference. This is because at training time, attention is only guided by a very sparse signal (i.e. the answer label) at the end of the inference chain. This causes the cross-modality attention weights to deviate from the desired visual-language bindings. To rectify this deviation, we propose to guide the attention mechanism using explicit linguistic-visual grounding. This grounding is derived by connecting structured linguistic concepts in the query to their referents among the visual objects. Here we learn the grounding from the pairing of questions and images alone, without the need for answer annotation or external grounding supervision. This grounding guides the attention mechanism inside VQA models through a duality of mechanisms: pre-training attention weight calculation and directly guiding the weights at inference time on a case-by-case basis. The resultant algorithm is capable of probing attention-based reasoning models, injecting relevant associative knowledge, and regulating the core reasoning process. This scalable enhancement improves the performance of VQA models, fortifies their robustness to limited access to supervised data, and increases interpretability.