参照表現セグメンテーション (RES) は広く研究されているマルチモーダル タスクであり、指定された言語表現を使用して単一の画像内の既存のオブジェクトをセグメント化しようとします。ただし、より広範な現実世界のシナリオでは、記述されたオブジェクトが特定の画像内に存在するかどうかを判断できるとは限りません。通常、画像のコレクションがあり、その一部には説明されているオブジェクトが含まれている場合があります。現在の RES 設定は、そのような状況での実用性を抑制します。この制限を克服するために、グループごとの参照式セグメンテーション (GRES) と呼ばれる、より現実的で一般的な設定を提案します。これは、RES を関連画像のコレクションに拡張し、記述されたオブジェクトが入力画像のサブセットに存在できるようにします。この新しい設定をサポートするために、Grouped Referring Dataset (GRD) という名前の精巧にコンパイルされたデータセットを導入します。これには、指定された式で記述されたターゲット オブジェクトの完全なグループごとのアノテーションが含まれています。また、Grouped Referring Segmenter (GRSer) と呼ばれるベースライン手法も紹介します。これは、言語と視覚およびグループ内の視覚と視覚の相互作用を明示的に捕捉し、提案されている GRES や関連タスク (Co など) で最先端の結果を達成します。 -顕著なオブジェクトの検出とRES。データセットとコードは https://github.com/yixuan730/group-res で公開されます。
Referring Expression Segmentation (RES) is a widely explored multi-modal task, which endeavors to segment the pre-existing object within a single image with a given linguistic expression. However, in broader real-world scenarios, it is not always possible to determine if the described object exists in a specific image. Typically, we have a collection of images, some of which may contain the described objects. The current RES setting curbs its practicality in such situations. To overcome this limitation, we propose a more realistic and general setting, named Group-wise Referring Expression Segmentation (GRES), which expands RES to a collection of related images, allowing the described objects to be present in a subset of input images. To support this new setting, we introduce an elaborately compiled dataset named Grouped Referring Dataset (GRD), containing complete group-wise annotations of target objects described by given expressions. We also present a baseline method named Grouped Referring Segmenter (GRSer), which explicitly captures the language-vision and intra-group vision-vision interactions to achieve state-of-the-art results on the proposed GRES and related tasks, such as Co-Salient Object Detection and RES. Our dataset and codes will be publicly released in https://github.com/yixuan730/group-res.