自然言語表現と画像/ビデオが与えられた場合、セグメンテーションを参照する目的は、表現の主題によって記述されたエンティティのピクセルレベルのマスクを生成することです。以前のアプローチは、暗黙の機能の相互作用と、視覚的モダリティと言語的モダリティの間の融合によって、この問題に1段階で取り組んでいます。しかし、人間は、表現内の有益な単語に基づいて、参照する問題を漸進的に解決する傾向があります。つまり、最初に候補エンティティを大まかに見つけてから、ターゲットエンティティを区別します。この論文では、人間の行動を効果的に模倣するためのクロスモーダルプログレッシブ理解(CMPC)スキームを提案し、CMPC-I(画像)モジュールおよびCMPC-V(ビデオ)モジュールとして実装して、参照画像およびビデオセグメンテーションモデルを改善します。 。画像データの場合、CMPC-Iモジュールは、最初にエンティティと属性の単語を使用して、式によって考慮される可能性のあるすべての関連エンティティを認識します。次に、関係語を採用して、ターゲットエンティティを強調表示するとともに、空間グラフ推論によって他の無関係なエンティティを抑制します。ビデオデータの場合、CMPC-Vモジュールは、CMPC-Iに基づくアクションワードをさらに活用して、時間グラフ推論によってアクションキューと一致する正しいエンティティを強調表示します。 CMPCに加えて、テキスト情報のガイダンスの下で視覚バックボーンのさまざまなレベルに対応する推論されたマルチモーダル機能を統合するために、シンプルで効果的なテキストガイド機能交換(TGFE)モジュールも導入します。このようにして、マルチレベルの機能は相互に通信し、テキストのコンテキストに基づいて相互に洗練することができます。 CMPC-IまたはCMPC-VをTGFEと組み合わせると、画像またはビデオバージョンの参照セグメンテーションフレームワークを形成できます。フレームワークは、それぞれ4つの参照画像セグメンテーションベンチマークと3つの参照ビデオセグメンテーションベンチマークで新しい最先端のパフォーマンスを実現します。
Given a natural language expression and an image/video, the goal of referring segmentation is to produce the pixel-level masks of the entities described by the subject of the expression. Previous approaches tackle this problem by implicit feature interaction and fusion between visual and linguistic modalities in a one-stage manner. However, human tends to solve the referring problem in a progressive manner based on informative words in the expression, i.e., first roughly locating candidate entities and then distinguishing the target one. In this paper, we propose a Cross-Modal Progressive Comprehension (CMPC) scheme to effectively mimic human behaviors and implement it as a CMPC-I (Image) module and a CMPC-V (Video) module to improve referring image and video segmentation models. For image data, our CMPC-I module first employs entity and attribute words to perceive all the related entities that might be considered by the expression. Then, the relational words are adopted to highlight the target entity as well as suppress other irrelevant ones by spatial graph reasoning. For video data, our CMPC-V module further exploits action words based on CMPC-I to highlight the correct entity matched with the action cues by temporal graph reasoning. In addition to the CMPC, we also introduce a simple yet effective Text-Guided Feature Exchange (TGFE) module to integrate the reasoned multimodal features corresponding to different levels in the visual backbone under the guidance of textual information. In this way, multi-level features can communicate with each other and be mutually refined based on the textual context. Combining CMPC-I or CMPC-V with TGFE can form our image or video version referring segmentation frameworks and our frameworks achieve new state-of-the-art performances on four referring image segmentation benchmarks and three referring video segmentation benchmarks respectively.