arXiv reaDer
セグメント化しないものの学習:少数ショットのセグメンテーションに関する新しい視点
Learning What Not to Segment: A New Perspective on Few-Shot Segmentation
最近、数ショットセグメンテーション(FSS)が広く開発されました。これまでのほとんどの作業は、分類タスクから派生したメタ学習フレームワークを通じて一般化を達成しようと努めています。ただし、トレーニングされたモデルは、理想的にはクラスに依存しないのではなく、見られるクラスに偏っているため、新しい概念の認識が妨げられます。このホワイトペーパーでは、問題を軽減するための新鮮でわかりやすい洞察を提案します。具体的には、従来のFSSモデル(メタラーナー)に追加のブランチ(ベースラーナー)を適用して、ベースクラスのターゲット、つまりセグメント化する必要のない領域を明示的に識別します。次に、これら2人の学習者が並行して出力した粗い結果を適応的に統合して、正確なセグメンテーション予測を生成します。メタ学習者の感度を考慮して、モデルアンサンブルの予測を容易にするために、入力画像ペア間のシーンの違いを推定するための調整係数をさらに導入します。 PASCAL-5iとCOCO-20iの大幅なパフォーマンスの向上は、その有効性を証明します。驚くべきことに、私たちの用途の広いスキームは、2人の普通の学習者でも新しい最先端を設定します。さらに、提案されたアプローチの独自の性質に照らして、より現実的でありながら挑戦的な設定、つまり、基本クラスと新規クラスの両方のピクセルを決定する必要がある一般化されたFSSに拡張します。ソースコードはgithub.com/chunbolang/BAMで入手できます。
Recently few-shot segmentation (FSS) has been extensively developed. Most previous works strive to achieve generalization through the meta-learning framework derived from classification tasks; however, the trained models are biased towards the seen classes instead of being ideally class-agnostic, thus hindering the recognition of new concepts. This paper proposes a fresh and straightforward insight to alleviate the problem. Specifically, we apply an additional branch (base learner) to the conventional FSS model (meta learner) to explicitly identify the targets of base classes, i.e., the regions that do not need to be segmented. Then, the coarse results output by these two learners in parallel are adaptively integrated to yield precise segmentation prediction. Considering the sensitivity of meta learner, we further introduce an adjustment factor to estimate the scene differences between the input image pairs for facilitating the model ensemble forecasting. The substantial performance gains on PASCAL-5i and COCO-20i verify the effectiveness, and surprisingly, our versatile scheme sets a new state-of-the-art even with two plain learners. Moreover, in light of the unique nature of the proposed approach, we also extend it to a more realistic but challenging setting, i.e., generalized FSS, where the pixels of both base and novel classes are required to be determined. The source code is available at github.com/chunbolang/BAM.
updated: Tue Mar 15 2022 03:08:27 GMT+0000 (UTC)
published: Tue Mar 15 2022 03:08:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト