arXiv reaDer
マルチタスクの視覚的グラウンディングのための言語適応重み生成
Language Adaptive Weight Generation for Multi-task Visual Grounding
ビジュアルグラウンディングにおいては優れたパフォーマンスを発揮しますが、一般的なアプローチは通常、ビジュアルバックボーンを受動的方法で利用します。つまり、ビジュアルバックボーンは表現関連のヒントを持たずに固定重みで特徴を抽出します。受動的な認識は不一致(冗長や欠落など)を引き起こし、さらなるパフォーマンスの向上を制限する可能性があります。理想的には、式によって必要な視覚的特徴の青写真がすでに提供されているため、視覚的バックボーンは積極的に視覚的特徴を抽出する必要があります。能動的な認識では、表現を事前分布として取得して、関連する視覚的特徴を抽出でき、不一致を効果的に軽減できます。これに触発されて、私たちは、VG-LAW と呼ばれる、言語適応重みに基づく能動的な知覚ビジュアル グラウンディング フレームワークを提案します。ビジュアル バックボーンは、さまざまな表現に対して生成された動的な重みを通じて、表現固有の特徴抽出器として機能します。 VG-LAW は、言語対応のビジュアル バックボーンから抽出された特定の関連性の高いビジュアル機能の恩恵を受けるため、クロスモーダル インタラクション用の追加モジュールを必要としません。 VG-LAW は、きちんとしたマルチタスク ヘッドに加えて、式の理解とセグメンテーションを組み合わせて参照する能力を備えています。 4 つの代表的なデータセット、つまり RefCOCO、RefCOCO+、RefCOCOg、ReferItGame に対する広範な実験により、提案されたフレームワークの有効性が検証され、最先端のパフォーマンスが実証されました。
Although the impressive performance in visual grounding, the prevailing approaches usually exploit the visual backbone in a passive way, i.e., the visual backbone extracts features with fixed weights without expression-related hints. The passive perception may lead to mismatches (e.g., redundant and missing), limiting further performance improvement. Ideally, the visual backbone should actively extract visual features since the expressions already provide the blueprint of desired visual features. The active perception can take expressions as priors to extract relevant visual features, which can effectively alleviate the mismatches. Inspired by this, we propose an active perception Visual Grounding framework based on Language Adaptive Weights, called VG-LAW. The visual backbone serves as an expression-specific feature extractor through dynamic weights generated for various expressions. Benefiting from the specific and relevant visual features extracted from the language-aware visual backbone, VG-LAW does not require additional modules for cross-modal interaction. Along with a neat multi-task head, VG-LAW can be competent in referring expression comprehension and segmentation jointly. Extensive experiments on four representative datasets, i.e., RefCOCO, RefCOCO+, RefCOCOg, and ReferItGame, validate the effectiveness of the proposed framework and demonstrate state-of-the-art performance.
updated: Tue Jun 06 2023 08:26:22 GMT+0000 (UTC)
published: Tue Jun 06 2023 08:26:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト