arXiv reaDer
一般化されたゼロショットセマンティックセグメンテーションのための共同埋め込みスペースの活用
Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic Segmentation
見えているクラスと見えていないクラスのピクセル単位のセマンティックラベルを予測する一般化されたゼロショットセマンティックセグメンテーション(GZS3)の問題に対処します。ほとんどのGZS3メソッドは、対応するセマンティッククラス(word2vecなど)から非表示クラスの視覚的特徴を合成して、表示クラスと非表示クラスの両方の新しい分類子をトレーニングする生成アプローチを採用しています。生成メソッドはまともなパフォーマンスを示しますが、2つの制限があります。(1)視覚的特徴が見られるクラスに偏っている。 (2)分類器は、新しい目に見えないクラスが出現するたびに再トレーニングする必要があります。統一されたフレームワークでこれらの制限に対処するための差別的なアプローチを提案します。この目的のために、視覚的および意味論的エンコーダーを活用して、共同埋め込みスペースを学習します。ここで、意味論的エンコーダーは、意味論的特徴を、対応するクラスの視覚的特徴の中心として機能する意味論的プロトタイプに変換します。具体的には、識別機能を学習するために、境界認識回帰(BAR)とセマンティック整合性(SC)の損失を導入します。共同埋め込みスペースを活用するための私たちのアプローチは、BARおよびSCの用語とともに、見られるバイアスの問題を軽減します。テスト時には、セマンティックプロトタイプを最近傍(NN)分類器として利用することにより、再トレーニングプロセスを回避します。バイアスの問題をさらに軽減するために、NN分類器の決定境界をアポロニウスの円に適応的に変調する推論手法(アポロニウスのキャリブレーション(AC)と呼ばれる)も提案します。実験結果は、私たちのフレームワークの有効性を示しており、標準的なベンチマークで新しい最先端を達成しています。
We address the problem of generalized zero-shot semantic segmentation (GZS3) predicting pixel-wise semantic labels for seen and unseen classes. Most GZS3 methods adopt a generative approach that synthesizes visual features of unseen classes from corresponding semantic ones (e.g., word2vec) to train novel classifiers for both seen and unseen classes. Although generative methods show decent performance, they have two limitations: (1) the visual features are biased towards seen classes; (2) the classifier should be retrained whenever novel unseen classes appear. We propose a discriminative approach to address these limitations in a unified framework. To this end, we leverage visual and semantic encoders to learn a joint embedding space, where the semantic encoder transforms semantic features to semantic prototypes that act as centers for visual features of corresponding classes. Specifically, we introduce boundary-aware regression (BAR) and semantic consistency (SC) losses to learn discriminative features. Our approach to exploiting the joint embedding space, together with BAR and SC terms, alleviates the seen bias problem. At test time, we avoid the retraining process by exploiting semantic prototypes as a nearest-neighbor (NN) classifier. To further alleviate the bias problem, we also propose an inference technique, dubbed Apollonius calibration (AC), that modulates the decision boundary of the NN classifier to the Apollonius circle adaptively. Experimental results demonstrate the effectiveness of our framework, achieving a new state of the art on standard benchmarks.
updated: Sat Aug 14 2021 13:33:58 GMT+0000 (UTC)
published: Sat Aug 14 2021 13:33:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト