コンピューター ビジョンの最も基本的なタスクであるオブジェクトの検出とセグメンテーションは、ディープ ラーニングの時代に大きな進歩を遂げました。手作業によるラベル付けにはコストがかかるため、既存のデータセット内の注釈付きカテゴリは小規模で事前定義されていることがよくあります。つまり、最先端の検出器やセグメンタは、閉じられた語彙を超えて一般化することができません。この制限を解決するために、ここ数年、Open-Vocabulary Detection (OVD) と Segmentation (OVS) への注目が高まっています。この調査では、OVD と OVS の過去および最近の開発に関する包括的なレビューを提供します。この目的を達成するために、タスクの種類と方法論に応じた分類法を開発します。弱い監視信号の許可と使用により、視覚意味論的空間マッピング、新しい視覚特徴合成、領域認識トレーニング、擬似ラベリング、知識蒸留ベース、転移学習ベースなどのさまざまな方法論を適切に区別できることがわかりました。提案された分類法は、オブジェクト検出、セマンティック/インスタンス/パノプティック セグメンテーション、3D シーン、ビデオの理解など、さまざまなタスクにわたって普遍的です。各カテゴリーでは、その主な原則、主要な課題、開発ルート、長所、短所が徹底的に議論されています。さらに、各タスクを各メソッドの重要なコンポーネントとともにベンチマークします。最後に、将来の研究を促進するために、いくつかの有望な方向性が提供されます。
As the most fundamental tasks of computer vision, object detection and segmentation have made tremendous progress in the deep learning era. Due to the expensive manual labeling, the annotated categories in existing datasets are often small-scale and pre-defined, i.e., state-of-the-art detectors and segmentors fail to generalize beyond the closed-vocabulary. To resolve this limitation, the last few years have witnessed increasing attention toward Open-Vocabulary Detection (OVD) and Segmentation (OVS). In this survey, we provide a comprehensive review on the past and recent development of OVD and OVS. To this end, we develop a taxonomy according to the type of task and methodology. We find that the permission and usage of weak supervision signals can well discriminate different methodologies, including: visual-semantic space mapping, novel visual feature synthesis, region-aware training, pseudo-labeling, knowledge distillation-based, and transfer learning-based. The proposed taxonomy is universal across different tasks, covering object detection, semantic/instance/panoptic segmentation, 3D scene and video understanding. In each category, its main principles, key challenges, development routes, strengths, and weaknesses are thoroughly discussed. In addition, we benchmark each task along with the vital components of each method. Finally, several promising directions are provided to stimulate future research.