arXiv reaDer
視覚的常識の推論のための視覚的注意に同意することを学ぶ
Learning to Agree on Vision Attention for Visual Commonsense Reasoning
視覚的常識推論 (VCR) は、視覚的推論の領域において、依然として重要かつ挑戦的な研究課題です。 VCR モデルは一般に、画像に関するテキストの質問に回答することを目的としており、その後、先行する回答プロセスの理論的根拠を予測します。これら 2 つのプロセスは連続しており、絡み合っていますが、既存の方法では、常に 2 つの独立した照合ベースのインスタンスと見なされます。したがって、彼らは 2 つのプロセス間の極めて重要な関係を無視し、最適ではないモデルのパフォーマンスにつながります。この論文では、統一されたフレームワークでこれら2つのプロセスを効果的に処理するための新しい視覚的注意の調整方法を提示します。これを実現するために、まず、各プロセスで作成されたビジョン アテンション マップを集約するための再アテンション モジュールを設計します。その後、結果として得られる 2 セットのアテンション マップが慎重に整列され、2 つのプロセスが同じ画像領域に基づいて決定を下すように誘導されます。この方法を従来のアテンション モデルと最近の Transformer モデルの両方に適用し、VCR ベンチマーク データセットで広範な実験を実行します。結果は、アテンション アラインメント モジュールを使用することで、提案された方法の有効性だけでなく、2 つのプロセスの結合の実現可能性が明らかになり、ベースライン方法よりも大幅に改善されることを示しています。
Visual Commonsense Reasoning (VCR) remains a significant yet challenging research problem in the realm of visual reasoning. A VCR model generally aims at answering a textual question regarding an image, followed by the rationale prediction for the preceding answering process. Though these two processes are sequential and intertwined, existing methods always consider them as two independent matching-based instances. They, therefore, ignore the pivotal relationship between the two processes, leading to sub-optimal model performance. This paper presents a novel visual attention alignment method to efficaciously handle these two processes in a unified framework. To achieve this, we first design a re-attention module for aggregating the vision attention map produced in each process. Thereafter, the resultant two sets of attention maps are carefully aligned to guide the two processes to make decisions based on the same image regions. We apply this method to both conventional attention and the recent Transformer models and carry out extensive experiments on the VCR benchmark dataset. The results demonstrate that with the attention alignment module, our method achieves a considerable improvement over the baseline methods, evidently revealing the feasibility of the coupling of the two processes as well as the effectiveness of the proposed method.
updated: Sun Feb 19 2023 06:44:39 GMT+0000 (UTC)
published: Sat Feb 04 2023 07:02:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト