arXiv reaDer
メタラーニングなしのショットセグメンテーションはほとんどありません:必要なのは優れたトランスダクティブ推論だけですか?
Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need?
最近、少数のショットのセグメンテーションが大きな関心を集めており、人気のあるメタ学習パラダイムが広く文献を支配しています。与えられた数ショットのセグメンテーションタスクに対して推論が実行される方法が、パフォーマンスに実質的な影響を与えることを示します。これは、文献では見過ごされてきた側面です。 3つの補完的な項を含む新しい損失を最適化することにより、タスクのラベルなしピクセルの統計を活用するトランスダクティブ推論を導入します。(i)ラベル付きピクセルの標準クロスエントロピー。 (ii)ラベルのないクエリピクセルの事後確率。 (iii)予測された前景領域の比率に基づくグローバルなKL発散正則化。私たちの推論は、抽出された特徴の単純な線形分類器を使用し、帰納的推論に匹敵する計算負荷を持ち、任意の基本トレーニングの上で使用できます。基本クラスで標準のクロスエントロピートレーニングを使用して、私たちの推論は、よく知られている数ショットのセグメンテーションベンチマークで非常に競争力のあるパフォーマンスをもたらします。 PASCAL-5iでは、1ショットの設定と同等でありながら、5ショットのシナリオで最高のパフォーマンスを発揮する最先端の方法よりも約5%向上しています。さらに驚くべきことに、このギャップはサポートサンプルの数が増えるにつれて広がり、10ショットシナリオでは最大6%に達します。さらに、ドメインシフトを使用したより現実的な設定を導入します。この設定では、基本クラスと新規クラスが異なるデータセットから描画されます。この設定では、私たちの方法が最高のパフォーマンスを達成することがわかりました。
Few-shot segmentation has recently attracted substantial interest, with the popular meta-learning paradigm widely dominating the literature. We show that the way inference is performed for a given few-shot segmentation task has a substantial effect on performances, an aspect that has been overlooked in the literature. We introduce a transductive inference, which leverages the statistics of the unlabeled pixels of a task by optimizing a new loss containing three complementary terms: (i) a standard cross-entropy on the labeled pixels; (ii) the entropy of posteriors on the unlabeled query pixels; and (iii) a global KL-divergence regularizer based on the proportion of the predicted foreground region. Our inference uses a simple linear classifier of the extracted features, has a computational load comparable to inductive inference and can be used on top of any base training. Using standard cross-entropy training on the base classes, our inference yields highly competitive performances on well-known few-shot segmentation benchmarks. On PASCAL-5i, it brings about 5% improvement over the best performing state-of-the-art method in the 5-shot scenario, while being on par in the 1-shot setting. Even more surprisingly, this gap widens as the number of support samples increases, reaching up to 6% in the 10-shot scenario. Furthermore, we introduce a more realistic setting with domain shift, where the base and novel classes are drawn from different datasets. In this setting, we found that our method achieves the best performances.
updated: Fri Dec 11 2020 07:11:19 GMT+0000 (UTC)
published: Fri Dec 11 2020 07:11:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト