arXiv reaDer
SIGN:一般化されたゼロショットセマンティックセグメンテーションのための空間情報を組み込んだ生成ネットワーク
SIGN: Spatial-information Incorporated Generative Network for Generalized Zero-shot Semantic Segmentation
従来のゼロショット分類とは異なり、ゼロショットセマンティックセグメンテーションは、画像レベルではなくピクセルレベルでクラスラベルを予測します。ゼロショットセマンティックセグメンテーションの問題を解決する場合、周囲のコンテキストでのピクセルレベルの予測の必要性により、位置エンコーディングを使用して空間情報を組み込むようになります。空間情報を特徴レベルで統合し、任意の画像サイズを処理できる相対位置エンコーディングの概念を導入することにより、標準の位置エンコーディングを改善します。さらに、セルフトレーニングは、疑似ラベルを生成するためのゼロショットセマンティックセグメンテーションで広く使用されていますが、疑似ラベルに異なる重要度を自動的に割り当てることができる、新しい知識蒸留に触発されたセルフトレーニング戦略、つまりアニーリングセルフトレーニングを提案します。パフォーマンスを向上させるためのラベル。提案された相対位置エンコーディングとアニーリングされたセルフトレーニングを包括的な実験的評価で体系的に研究し、経験的結果により、3つのベンチマークデータセットでの方法の有効性が確認されました。
Unlike conventional zero-shot classification, zero-shot semantic segmentation predicts a class label at the pixel level instead of the image level. When solving zero-shot semantic segmentation problems, the need for pixel-level prediction with surrounding context motivates us to incorporate spatial information using positional encoding. We improve standard positional encoding by introducing the concept of Relative Positional Encoding, which integrates spatial information at the feature level and can handle arbitrary image sizes. Furthermore, while self-training is widely used in zero-shot semantic segmentation to generate pseudo-labels, we propose a new knowledge-distillation-inspired self-training strategy, namely Annealed Self-Training, which can automatically assign different importance to pseudo-labels to improve performance. We systematically study the proposed Relative Positional Encoding and Annealed Self-Training in a comprehensive experimental evaluation, and our empirical results confirm the effectiveness of our method on three benchmark datasets.
updated: Fri Aug 27 2021 22:18:24 GMT+0000 (UTC)
published: Fri Aug 27 2021 22:18:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト