オープン語彙オブジェクト検出は、事前トレーニングされた視覚言語モデルから大きな恩恵を受けていますが、利用可能な検出トレーニング データの量によって依然として制限されています。 Web の画像とテキストのペアを弱い監視として使用することで検出トレーニング データを拡張できますが、これは画像レベルの事前トレーニングに匹敵する規模では行われていません。ここでは、既存の検出器を使用して画像とテキストのペアに疑似ボックス アノテーションを生成する自己トレーニングによって検出データをスケールアップします。セルフトレーニングのスケーリングにおける主な課題は、ラベル空間の選択、疑似アノテーションのフィルタリング、およびトレーニングの効率です。これらの課題に対処するOWLv2モデルとOWL-STセルフトレーニングレシピを紹介します。 OWLv2 は、すでに同等のトレーニング スケール (約 1,000 万例) で、以前の最先端のオープン語彙検出器のパフォーマンスを上回っています。ただし、OWL-STを使用すると、10億を超えるサンプルに拡張でき、さらに大きな改善が得られます。L/14アーキテクチャを使用すると、OWL-STは、モデルにヒューマンボックスアノテーションが見られなかったLVISレアクラスのAPを31.2から改善します。 % から 44.6% (43% の相対改善)。 OWL-STは、画像分類や言語モデリングで見られたものと同様の、オープンワールドローカリゼーションのためのWebスケールトレーニングを可能にします。
Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.