この作業では、画像とキャプションのペアに基づいて、既知のクラスの特定のセットとともに新しいオブジェクトクラスを検出することを学習する、オープンボキャブラリーオブジェクト検出方法を提案します。これは2段階のトレーニングアプローチであり、最初に場所に基づく画像キャプションマッチング手法を使用して、弱く監視された方法で新規クラスと既知のクラスの両方のクラスラベルを学習し、次に既知のクラスアノテーションを使用してオブジェクト検出タスクのモデルを特殊化します。 。単純な言語モデルが、新しいオブジェクトを検出するための大規模なコンテキスト化された言語モデルよりも適していることを示します。さらに、画像とキャプションのペア情報をより有効に活用するために、整合性正則化手法を導入します。私たちの方法は、データ効率が高く、既存のオープンボキャブラリー検出アプローチと比べて遜色ありません。ソースコードはhttps://github.com/lmb-freiburg/locovで入手できます。
In this work, we propose an open-vocabulary object detection method that, based on image-caption pairs, learns to detect novel object classes along with a given set of known classes. It is a two-stage training approach that first uses a location-guided image-caption matching technique to learn class labels for both novel and known classes in a weakly-supervised manner and second specializes the model for the object detection task using known class annotations. We show that a simple language model fits better than a large contextualized language model for detecting novel objects. Moreover, we introduce a consistency-regularization technique to better exploit image-caption pair information. Our method compares favorably to existing open-vocabulary detection approaches while being data-efficient. Source code is available at https://github.com/lmb-freiburg/locov .