arXiv reaDer
クエリを念頭に置いてください:クエリ条件付き畳み込みによる視覚的根拠
Bear the Query in Mind: Visual Grounding with Query-conditioned Convolution
視覚的接地は、自然言語表現に従ってターゲットオブジェクトを見つけることを目的としたタスクです。マルチモーダルタスクとして、テキスト入力と視覚入力の間の機能の相互作用が不可欠です。ただし、以前のソリューションでは、主に各モダリティを個別に処理してから融合します。これは、視覚的な特徴を抽出する際に関連するテキスト情報を十分に活用していません。視覚的接地におけるテキストと視覚の関係をより有効に活用するために、畳み込みカーネルの生成にクエリ情報を組み込むことにより、クエリ対応の視覚的特徴を抽出するクエリ条件付き畳み込みモジュール(QCM)を提案します。提案されたQCMを使用すると、ダウンストリームフュージョンモジュールは、より識別力があり、式に記述された目的のオブジェクトに焦点を合わせた視覚的特徴を受け取り、より正確な予測につながります。 3つの人気のある視覚的接地データセットに関する広範な実験は、私たちの方法が最先端のパフォーマンスを達成することを示しています。さらに、クエリ対応の視覚的機能は、マルチモーダルフュージョンをさらに行わずに予測に直接使用した場合に、最新の方法と同等のパフォーマンスを実現するのに十分な情報を提供します。
Visual grounding is a task that aims to locate a target object according to a natural language expression. As a multi-modal task, feature interaction between textual and visual inputs is vital. However, previous solutions mainly handle each modality independently before fusing them together, which does not take full advantage of relevant textual information while extracting visual features. To better leverage the textual-visual relationship in visual grounding, we propose a Query-conditioned Convolution Module (QCM) that extracts query-aware visual features by incorporating query information into the generation of convolutional kernels. With our proposed QCM, the downstream fusion module receives visual features that are more discriminative and focused on the desired object described in the expression, leading to more accurate predictions. Extensive experiments on three popular visual grounding datasets demonstrate that our method achieves state-of-the-art performance. In addition, the query-aware visual features are informative enough to achieve comparable performance to the latest methods when directly used for prediction without further multi-modal fusion.
updated: Sat Jun 18 2022 04:26:39 GMT+0000 (UTC)
published: Sat Jun 18 2022 04:26:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト