普及している最先端のインスタンス セグメンテーション メソッドは、クエリ ベースのスキームに分類されます。このスキームでは、インスタンス認識埋め込みのセットを使用して画像の特徴をクエリすることにより、インスタンス マスクが導出されます。この作業では、識別クエリ埋め込み学習を通じてクエリベースのモデルを強化する新しいトレーニング フレームワークを考案します。クエリとインスタンス間の関係の 2 つの重要なプロパティ、つまりデータセット レベルの一意性と変換の等価性を調べます。まず、アルゴリズムはクエリを使用して、個々のシーン内のみを検索するのではなく、トレーニング データセット全体から対応するインスタンスを取得します。シーン全体でインスタンスのクエリを実行することはより困難であるため、セグメンターは効果的なインスタンス分離のために、より差別的なクエリを学習する必要があります。第二に、私たちのアルゴリズムは、画像 (インスタンス) 表現とクエリの両方が幾何学的変換に対して同変であることを奨励し、より堅牢なインスタンスクエリ マッチングにつながります。 4 つの有名なクエリベースのモデル (つまり、CondInst、SOLOv2、SOTR、および Mask2Former) に加えて、当社のトレーニング アルゴリズムは、COCO データセットで大幅なパフォーマンス向上 (例: +1.6 - 3.2 AP) を提供します。さらに、LVISv1 データセットでは、アルゴリズムによって SOLOv2 のパフォーマンスが 2.7 AP 向上します。
Prevalent state-of-the-art instance segmentation methods fall into a query-based scheme, in which instance masks are derived by querying the image feature using a set of instance-aware embeddings. In this work, we devise a new training framework that boosts query-based models through discriminative query embedding learning. It explores two essential properties, namely dataset-level uniqueness and transformation equivariance, of the relation between queries and instances. First, our algorithm uses the queries to retrieve the corresponding instances from the whole training dataset, instead of only searching within individual scenes. As querying instances across scenes is more challenging, the segmenters are forced to learn more discriminative queries for effective instance separation. Second, our algorithm encourages both image (instance) representations and queries to be equivariant against geometric transformations, leading to more robust, instance-query matching. On top of four famous, query-based models (i.e., CondInst, SOLOv2, SOTR, and Mask2Former), our training algorithm provides significant performance gains (e.g., +1.6 - 3.2 AP) on COCO dataset. In addition, our algorithm promotes the performance of SOLOv2 by 2.7 AP, on LVISv1 dataset.