Few Shot Instance Segmentation (FSIS) では、いくつかのサポート例が限定された新しいクラスを検出してセグメント化するモデルが必要です。この作業では、FSIS とそのインクリメンタル バリアントのシンプルかつ統合されたソリューションを調査し、Transformer のようなフレームワークに基づくサポート/クエリ機能間の関係を完全に調査するために、Reference Twice (RefT) という名前の新しいフレームワークを導入します。私たちの重要な洞察は 2 つあります。まず、サポート マスクの助けを借りて、動的クラス センターをより適切に生成し、クエリ機能を再重み付けできます。第 2 に、サポート オブジェクト クエリは、ベース トレーニング後にキー ファクターを既にエンコードしていることがわかります。このように、クエリ機能は、機能レベルとインスタンス レベルの 2 つの側面から 2 回拡張できます。特に、最初にサポート機能を強化するためにマスクベースの動的重み付けモジュールを設計し、クロスアテンションによるより良いキャリブレーションのためにオブジェクトクエリをリンクすることを提案します。上記の手順の後、新しいクラスは強力なベースラインよりも大幅に改善されます。さらに、私たちの新しいフレームワークは、わずかな変更を加えるだけで簡単にインクリメンタル FSIS に拡張できます。 FSIS、gFSIS、および iFSIS 設定の COCO データセットの結果をベンチマークすると、さまざまなショットにわたる既存のアプローチと比較して、私たちの方法は競争力のあるパフォーマンスを達成します。 -art 10/30 ショットの FSIS メソッド。さらに、少数ショットオブジェクト検出に対するアプローチの優位性を示します。コードとモデルが利用可能になります。
Few Shot Instance Segmentation (FSIS) requires models to detect and segment novel classes with limited several support examples. In this work, we explore a simple yet unified solution for FSIS as well as its incremental variants, and introduce a new framework named Reference Twice (RefT) to fully explore the relationship between support/query features based on a Transformer-like framework. Our key insights are two folds: Firstly, with the aid of support masks, we can generate dynamic class centers more appropriately to re-weight query features. Secondly, we find that support object queries have already encoded key factors after base training. In this way, the query features can be enhanced twice from two aspects, i.e., feature-level and instance-level. In particular, we firstly design a mask-based dynamic weighting module to enhance support features and then propose to link object queries for better calibration via cross-attention. After the above steps, the novel classes can be improved significantly over our strong baseline. Additionally, our new framework can be easily extended to incremental FSIS with minor modification. When benchmarking results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method achieves a competitive performance compared to existing approaches across different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current state-of-the-art FSIS method for 10/30-shot. We further demonstrate the superiority of our approach on Few Shot Object Detection. Code and model will be available.