arXiv reaDer
CARD: 効率的なクラス認識正規化デコーダによるセマンティック セグメンテーション
CARD: Semantic Segmentation with Efficient Class-Aware Regularized Decoder
セマンティック セグメンテーションは、学習中に「クラス レベル」のコンテキスト情報を活用することで、最近注目すべき進歩を遂げました。ただし、これらのアプローチは、クラスレベルの情報をピクセル機能に連結してピクセル表現の学習を促進するだけであり、クラス内およびクラス間のコンテキスト情報を完全に利用することはできません。さらに、これらのアプローチは、誤差が蓄積しやすい粗いマスク予測に基づいてソフト クラス センターを学習します。クラスレベルの情報をより適切に活用するために、特徴学習中にクラス内分散とクラス間距離を最適化する普遍的なクラス認識正則化 (CAR) アプローチを提案します。一緒に表示される他のオブジェクト。さらに、計算コストの面で非常に効率的でありながら、既存のベースラインのゲインを最大化するために、新しい空間トークン ミキサーとアップサンプリング モジュールで構成される CAR (CARD) 用の専用デコーダーを設計します。具体的には、CAR は 3 つの新しい損失関数で構成されています。最初の損失関数は、各クラス内のよりコンパクトなクラス表現を促進し、2 番目は異なるクラス中心間の距離を直接最大化し、3 番目はクラス間の中心とピクセル間の距離をさらにプッシュします。さらに、私たちのアプローチのクラス センターは、エラーが発生しやすい粗い予測からではなく、グラウンド トゥルースから直接生成されます。 CAR は、トレーニング中にほとんどの既存のセグメンテーション モデルに直接適用でき、追加の推論オーバーヘッドなしで精度を大幅に向上させることができます。複数のベンチマーク データセットで実施された広範な実験とアブレーション研究は、提案された CAR がすべてのベースライン モデルの精度を優れた一般化能力で最大 2.23% mIOU 向上させることができることを示しています。 CARD は、非常に効率的なアーキテクチャを使用して、複数のベンチマークで SOTA アプローチよりも優れています。
Semantic segmentation has recently achieved notable advances by exploiting "class-level" contextual information during learning. However, these approaches simply concatenate class-level information to pixel features to boost the pixel representation learning, which cannot fully utilize intra-class and inter-class contextual information. Moreover, these approaches learn soft class centers based on coarse mask prediction, which is prone to error accumulation. To better exploit class level information, we propose a universal Class-Aware Regularization (CAR) approach to optimize the intra-class variance and inter-class distance during feature learning, motivated by the fact that humans can recognize an object by itself no matter which other objects it appears with. Moreover, we design a dedicated decoder for CAR (CARD), which consists of a novel spatial token mixer and an upsampling module, to maximize its gain for existing baselines while being highly efficient in terms of computational cost. Specifically, CAR consists of three novel loss functions. The first loss function encourages more compact class representations within each class, the second directly maximizes the distance between different class centers, and the third further pushes the distance between inter-class centers and pixels. Furthermore, the class center in our approach is directly generated from ground truth instead of from the error-prone coarse prediction. CAR can be directly applied to most existing segmentation models during training, and can largely improve their accuracy at no additional inference overhead. Extensive experiments and ablation studies conducted on multiple benchmark datasets demonstrate that the proposed CAR can boost the accuracy of all baseline models by up to 2.23% mIOU with superior generalization ability. CARD outperforms SOTA approaches on multiple benchmarks with a highly efficient architecture.
updated: Wed Jan 11 2023 01:41:37 GMT+0000 (UTC)
published: Wed Jan 11 2023 01:41:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト