画像レベルのラベルを使用した弱い教師ありセマンティック セグメンテーション (WSSS) は、コンピューター ビジョンでは困難なタスクです。主流のアプローチは、多段階のフレームワークに従い、高いトレーニング コストに悩まされます。このホワイト ペーパーでは、Contrastive Language-Image Pre-training Models (CLIP) を使用して、画像レベルのラベルのみを使用し、それ以上のトレーニングを行わずにさまざまなカテゴリをローカライズする可能性を探ります。 CLIP から高品質のセグメンテーション マスクを効率的に生成するために、WSSS 用の CLIP-ES と呼ばれる新しいフレームワークを提案します。私たちのフレームワークは、CLIP のための特別な設計で WSSS の 3 つのステージすべてを改善します。一方、CLIP を最大限に活用するために、WSSS 設定でテキスト入力を再調査し、2 つのテキスト駆動型戦略をカスタマイズします: シャープネスに基づくプロンプト選択と同義語融合です。 2) CAM 改良の段階を簡素化するために、CLIP-ViT の固有のマルチヘッド自己注意 (MHSA) に基づく、リアルタイムのクラス認識注意ベースのアフィニティ (CAA) モジュールを提案します。 3) CLIP によって生成されたマスクを使用して最終的なセグメンテーション モデルをトレーニングするとき、ノイズを軽減し、信頼できる領域に焦点を当てるために信頼ガイド付き損失 (CGL) を導入しました。提案されたフレームワークは、WSSS のトレーニングのコストを大幅に削減し、CLIP でオブジェクトをローカライズする機能を示しています。当社の CLIP-ES は、Pascal VOC 2012 および MS COCO 2014 で SOTA パフォーマンスを達成しながら、疑似マスクの生成に以前の方法の 10% の時間しかかかりません。コードは https://github.com/linyq2117/CLIP-ES で入手できます。
Weakly supervised semantic segmentation (WSSS) with image-level labels is a challenging task in computer vision. Mainstream approaches follow a multi-stage framework and suffer from high training costs. In this paper, we explore the potential of Contrastive Language-Image Pre-training models (CLIP) to localize different categories with only image-level labels and without any further training. To efficiently generate high-quality segmentation masks from CLIP, we propose a novel framework called CLIP-ES for WSSS. Our framework improves all three stages of WSSS with special designs for CLIP: 1) We introduce the softmax function into GradCAM and exploit the zero-shot ability of CLIP to suppress the confusion caused by non-target classes and backgrounds. Meanwhile, to take full advantage of CLIP, we re-explore text inputs under the WSSS setting and customize two text-driven strategies: sharpness-based prompt selection and synonym fusion. 2) To simplify the stage of CAM refinement, we propose a real-time class-aware attention-based affinity (CAA) module based on the inherent multi-head self-attention (MHSA) in CLIP-ViTs. 3) When training the final segmentation model with the masks generated by CLIP, we introduced a confidence-guided loss (CGL) to mitigate noise and focus on confident regions. Our proposed framework dramatically reduces the cost of training for WSSS and shows the capability of localizing objects in CLIP. Our CLIP-ES achieves SOTA performance on Pascal VOC 2012 and MS COCO 2014 while only taking 10% time of previous methods for the pseudo mask generation. Code is available at https://github.com/linyq2117/CLIP-ES.