ゼロショット分類におけるビジョン言語手法 (VLM) の成功に触発された最近の研究では、事前トレーニングされた VLM の位置特定機能を活用し、セルフ内で目に見えないクラスの疑似ラベルを生成することにより、この一連の作業を物体検出に拡張しようとしています。 -トレーニング方法。ただし、現在の VLM は通常、文の埋め込みとグローバルな画像の埋め込みを調整することで事前トレーニングされているため、VLM を直接使用すると、検出の核心であるオブジェクト インスタンスのきめ細かい調整が不足します。この論文では、現在の自己能力を向上させるためのきめの細かいビジュアルテキストプロンプト適応段階を導入する、オープン語彙検出 (VTP-OVD) のための、シンプルだが効果的なきめの細かいビジュアルテキストプロンプト駆動型自己トレーニングパラダイムを提案します。 - より強力で細かい調整を備えたトレーニング パラダイム。適応段階では、補助的な高密度ピクセル単位の予測タスクを解決する学習可能なテキスト プロンプトを使用することで、VLM が詳細な位置合わせを取得できるようにします。さらに、事前トレーニングされた VLM を下流タスクに適切に適応させるために、ビジョン ブランチに事前タスク情報 (つまり、予測が必要なカテゴリ) を提供する視覚プロンプト モジュールを提案します。実験の結果、私たちの方法は、オープン語彙オブジェクト検出の最先端のパフォーマンス、たとえば、COCO の目に見えないクラスで 31.5% の mAP を達成することが示されています。
Inspired by the success of vision-language methods (VLMs) in zero-shot classification, recent works attempt to extend this line of work into object detection by leveraging the localization ability of pre-trained VLMs and generating pseudo labels for unseen classes in a self-training manner. However, since the current VLMs are usually pre-trained with aligning sentence embedding with global image embedding, the direct use of them lacks fine-grained alignment for object instances, which is the core of detection. In this paper, we propose a simple but effective fine-grained Visual-Text Prompt-driven self-training paradigm for Open-Vocabulary Detection (VTP-OVD) that introduces a fine-grained visual-text prompt adapting stage to enhance the current self-training paradigm with a more powerful fine-grained alignment. During the adapting stage, we enable VLM to obtain fine-grained alignment by using learnable text prompts to resolve an auxiliary dense pixel-wise prediction task. Furthermore, we propose a visual prompt module to provide the prior task information (i.e., the categories need to be predicted) for the vision branch to better adapt the pre-trained VLM to the downstream tasks. Experiments show that our method achieves the state-of-the-art performance for open-vocabulary object detection, e.g., 31.5% mAP on unseen classes of COCO.