堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットにスケーリングする必要があります。ただし、大規模に数千のカテゴリの注釈を取得することは非常にコストがかかります。最近のビジョンおよび言語モデルで利用可能な豊富なセマンティクスを活用して、ラベルのない画像内のオブジェクトをローカライズおよび分類し、オブジェクト検出用の疑似ラベルを効果的に生成する新しい方法を提案します。一般的でクラスにとらわれない領域提案メカニズムから始めて、ビジョンと言語モデルを使用して、画像の各領域をダウンストリームタスクに必要なオブジェクトカテゴリに分類します。生成された疑似ラベルの価値を、モデルを見えないオブジェクトカテゴリに一般化する必要があるオープンボキャブラリ検出と、追加のラベルなし画像を使用してモデルを改善できる半教師ありオブジェクト検出の2つの特定のタスクで示します。私たちの経験的評価は、両方のタスクで疑似ラベルの有効性を示しています。ここでは、競合するベースラインを上回り、オープンボキャブラリーオブジェクト検出の新しい最先端を実現しています。私たちのコードはhttps://github.com/xiaofeng94/VL-PLMで入手できます。
Building robust and generic object detection frameworks requires scaling to larger label spaces and bigger training datasets. However, it is prohibitively costly to acquire annotations for thousands of categories at a large scale. We propose a novel method that leverages the rich semantics available in recent vision and language models to localize and classify objects in unlabeled images, effectively generating pseudo labels for object detection. Starting with a generic and class-agnostic region proposal mechanism, we use vision and language models to categorize each region of an image into any object category that is required for downstream tasks. We demonstrate the value of the generated pseudo labels in two specific tasks, open-vocabulary detection, where a model needs to generalize to unseen object categories, and semi-supervised object detection, where additional unlabeled images can be used to improve the model. Our empirical evaluation shows the effectiveness of the pseudo labels in both tasks, where we outperform competitive baselines and achieve a novel state-of-the-art for open-vocabulary object detection. Our code is available at https://github.com/xiaofeng94/VL-PLM.