arXiv reaDer
画像セグメンテーションを参照するためのセマンティクスを考慮した動的ローカリゼーションと改良
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation
イメージ セグメンテーションを参照すると、言語表現からイメージがセグメント化されます。高品質のマスクを作成する目的で、既存の方法では、多くの場合、視覚言語機能を改良するために RNN または積み重ねられた注意層に依存する反復学習アプローチが採用されます。その複雑さにもかかわらず、RNN ベースの方法は特定のエンコーダーの選択の影響を受けますが、アテンション ベースの方法は限られた利益をもたらします。この作業では、差別的なマルチモーダル機能を徐々に学習するためのシンプルで効果的な代替手段を紹介します。私たちのアプローチの核となるアイデアは、継続的に更新されるクエリをターゲット オブジェクトの表現として活用し、反復ごとに、クエリに強く相関するマルチモーダル機能を強化し、関連性の低い機能を弱めることです。クエリが言語機能によって初期化され、オブジェクト機能によって継続的に更新されるにつれて、アルゴリズムはローカリゼーション中心からセグメンテーション中心へと徐々に移行します。この戦略により、欠落しているオブジェクト部分の増分回復や、繰り返しによる無関係な部分の削除が可能になります。対応する方法と比較して、私たちの方法はより用途が広く、先行技術に簡単にプラグインでき、一貫して改善をもたらすことができます. RefCOCO、RefCOCO+、および G-Ref の挑戦的なデータセットに関する実験結果は、最先端の方法に関してその利点を示しています。
Referring image segmentation segments an image from a language expression. With the aim of producing high-quality masks, existing methods often adopt iterative learning approaches that rely on RNNs or stacked attention layers to refine vision-language features. Despite their complexity, RNN-based methods are subject to specific encoder choices, while attention-based methods offer limited gains. In this work, we introduce a simple yet effective alternative for progressively learning discriminative multi-modal features. The core idea of our approach is to leverage a continuously updated query as the representation of the target object and at each iteration, strengthen multi-modal features strongly correlated to the query while weakening less related ones. As the query is initialized by language features and successively updated by object features, our algorithm gradually shifts from being localization-centric to segmentation-centric. This strategy enables the incremental recovery of missing object parts and/or removal of extraneous parts through iteration. Compared to its counterparts, our method is more versatilex2014it can be plugged into prior arts straightforwardly and consistently bring improvements. Experimental results on the challenging datasets of RefCOCO, RefCOCO+, and G-Ref demonstrate its advantage with respect to the state-of-the-art methods.
updated: Sat Mar 11 2023 08:42:40 GMT+0000 (UTC)
published: Sat Mar 11 2023 08:42:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト