arXiv reaDer
Pseudo-Q:視覚的接地のための疑似言語クエリの生成
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding
視覚的接地、つまり自然言語クエリに従って画像内のオブジェクトをローカライズすることは、視覚言語の理解における重要なトピックです。このタスクの最も効果的なアプローチはディープラーニングに基づいており、通常、手動でラベル付けされた高価な画像クエリまたはパッチクエリのペアが必要です。人間の注釈への大きな依存を排除するために、教師ありトレーニング用の疑似言語クエリを自動的に生成するPseudo-Qという名前の新しい方法を紹介します。この方法では、既成のオブジェクト検出器を利用して、ラベルのない画像から視覚的なオブジェクトを識別します。次に、これらのオブジェクトの言語クエリは、疑似クエリ生成モジュールを使用して教師なしで取得されます。次に、タスク関連のクエリプロンプトモジュールを設計して、視覚的な接地タスク用に生成された疑似言語クエリを具体的に調整します。さらに、画像と言語クエリの間のコンテキスト関係を完全にキャプチャするために、マルチレベルのクロスモダリティ注意メカニズムを備えた視覚言語モデルを開発します。広範な実験結果は、私たちの方法が2つの顕著な利点を持っていることを示しています:(1)完全に監視された設定の下で元のモデルのパフォーマンスを低下させることなくRefCOCOで31%など、人間の注釈コストを大幅に削減できます。私たちが実験した5つのデータセットすべてで、最先端の弱く監視された視覚的接地方法と比較して、優れたまたは同等のパフォーマンスを実現します。コードはhttps://github.com/LeapLabTHU/Pseudo-Qで入手できます。
Visual grounding, i.e., localizing objects in images according to natural language queries, is an important topic in visual language understanding. The most effective approaches for this task are based on deep learning, which generally require expensive manually labeled image-query or patch-query pairs. To eliminate the heavy dependence on human annotations, we present a novel method, named Pseudo-Q, to automatically generate pseudo language queries for supervised training. Our method leverages an off-the-shelf object detector to identify visual objects from unlabeled images, and then language queries for these objects are obtained in an unsupervised fashion with a pseudo-query generation module. Then, we design a task-related query prompt module to specifically tailor generated pseudo language queries for visual grounding tasks. Further, in order to fully capture the contextual relationships between images and language queries, we develop a visual-language model equipped with multi-level cross-modality attention mechanism. Extensive experimental results demonstrate that our method has two notable benefits: (1) it can reduce human annotation costs significantly, e.g., 31% on RefCOCO without degrading original model's performance under the fully supervised setting, and (2) without bells and whistles, it achieves superior or comparable performance compared to state-of-the-art weakly-supervised visual grounding methods on all the five datasets we have experimented. Code is available at https://github.com/LeapLabTHU/Pseudo-Q.
updated: Tue Mar 22 2022 02:48:40 GMT+0000 (UTC)
published: Wed Mar 16 2022 09:17:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト