arXiv reaDer
CAT-Seg: オープン語彙セマンティック セグメンテーションのコスト集計
CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation
オープン語彙のセマンティック セグメンテーションに関する既存の研究では、CLIP などの大規模な視覚言語モデルを利用して、優れたオープン語彙認識機能を活用しています。ただし、画像レベルの監視から学んだこれらの機能をセグメンテーションのピクセルレベルのタスクに転送し、推論で任意の目に見えないカテゴリに対処するという問題は、このタスクを困難にします.これらの問題に対処するために、CLIP表現をピクセルレベルのタスクに適応させながら、クラスカテゴリ間の関係情報と視覚的セマンティクスを集約によって活用することにより、画像内のオブジェクトを特定のカテゴリに注意深く関連付けることを目指しています。ただし、CLIP 埋め込みを直接最適化すると、そのオープン語彙機能が損なわれる可能性があることがわかります。この点に関して、新しいコスト集約ベースの方法を使用して、画像とテキストの類似性マップ、つまりコストマップを最適化するための代替アプローチを提案します。私たちのフレームワーク、すなわち CAT-Seg は、すべてのベンチマークで最先端のパフォーマンスを達成しています。私たちは、私たちの選択を検証するために広範なアブレーション研究を提供します。プロジェクトページ: https://ku-cvlab.github.io/CAT-Seg/.
Existing works on open-vocabulary semantic segmentation have utilized large-scale vision-language models, such as CLIP, to leverage their exceptional open-vocabulary recognition capabilities. However, the problem of transferring these capabilities learned from image-level supervision to the pixel-level task of segmentation and addressing arbitrary unseen categories at inference makes this task challenging. To address these issues, we aim to attentively relate objects within an image to given categories by leveraging relational information among class categories and visual semantics through aggregation, while also adapting the CLIP representations to the pixel-level task. However, we observe that direct optimization of the CLIP embeddings can harm its open-vocabulary capabilities. In this regard, we propose an alternative approach to optimize the image-text similarity map, i.e. the cost map, using a novel cost aggregation-based method. Our framework, namely CAT-Seg, achieves state-of-the-art performance across all benchmarks. We provide extensive ablation studies to validate our choices. Project page: https://ku-cvlab.github.io/CAT-Seg/.
updated: Tue Mar 21 2023 12:28:21 GMT+0000 (UTC)
published: Tue Mar 21 2023 12:28:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト