Multi-Modal Prototypes for Open-Set Semantic Segmentation
セマンティック セグメンテーションでは、推論時にビジュアル システムを新しいオブジェクト カテゴリに適応させることは、常に価値があると同時に困難でもあります。このような一般化を可能にするために、既存のメソッドは、視覚的な手がかりとしていくつかのサポート例を提供するか、テキストの手がかりとしてクラス名を提供することに依存しています。開発は比較的楽観的であるため、これら 2 つの行は単独で研究され、低レベルの視覚情報と高レベルの言語情報の相補的な本質を無視しています。この論文では、オープンセット セマンティック セグメンテーション (O3S) と呼ばれる統一設定を定義します。これは、視覚的な例とテキスト名の両方から、目に見えるセマンティクスと目に見えないセマンティクスを学習することを目的としています。私たちのパイプラインは、最初に単一モーダルの自己強化と集約、次にマルチモーダルの相補的融合によって、セグメンテーション タスク用のマルチモーダル プロトタイプを抽出します。具体的には、視覚的な特徴を視覚的なプロトタイプとしていくつかのトークンに集約し、テキスト プロトタイプ生成のための詳細な説明を使用してクラス名を強化します。次に、2 つのモダリティを融合して、最終的なセグメンテーション用のマルチモーダル プロトタイプを生成します。 \pascal データセットと \coco データセットの両方で、フレームワークの有効性を評価するために広範な実験を実施しました。より詳細なパーツセグメンテーションである Pascal-Animals でも、粗粒度のデータセットでトレーニングするだけで、最先端の結果が得られます。各コンポーネントを定量的および定性的に分析するために、徹底的なアブレーション研究が実行されます。
In semantic segmentation, adapting a visual system to novel object categories at inference time has always been both valuable and challenging. To enable such generalization, existing methods rely on either providing several support examples as visual cues or class names as textual cues. Through the development is relatively optimistic, these two lines have been studied in isolation, neglecting the complementary intrinsic of low-level visual and high-level language information. In this paper, we define a unified setting termed as open-set semantic segmentation (O3S), which aims to learn seen and unseen semantics from both visual examples and textual names. Our pipeline extracts multi-modal prototypes for segmentation task, by first single modal self-enhancement and aggregation, then multi-modal complementary fusion. To be specific, we aggregate visual features into several tokens as visual prototypes, and enhance the class name with detailed descriptions for textual prototype generation. The two modalities are then fused to generate multi-modal prototypes for final segmentation. On both \pascal and \coco datasets, we conduct extensive experiments to evaluate the framework effectiveness. State-of-the-art results are achieved even on more detailed part-segmentation, Pascal-Animals, by only training on coarse-grained datasets. Thorough ablation studies are performed to dissect each component, both quantitatively and qualitatively.
updated: Tue Jul 09 2024 04:27:18 GMT+0000 (UTC)
published: Wed Jul 05 2023 03:27:31 GMT+0000 (UTC)
