arXiv reaDer
擬似キャプション ラベルを使用したオープン語彙オブジェクトの検出
Open-Vocabulary Object Detection using Pseudo Caption Labels
最近のオープン語彙検出方法は、膨大な量の画像とテキストのペアでトレーニングされた視覚言語モデル (VLM) から知識を抽出することにより、新しいオブジェクトを検出することを目的としています。これらの方法の有効性を改善するために、研究者は、そのようなデータがモデルがさまざまなオブジェクト間の関係に関する包括的な知識を抽出し、目に見えないオブジェクトに一般化することを可能にするという仮定の下で、多数のオブジェクトクラスを含む大きな語彙を持つデータセットを利用してきました。クラス。この研究では、名前に加えて、オブジェクトの属性や関係など、新しいオブジェクトに関するより豊富な知識を抽出するには、よりきめ細かいラベルが必要であると主張します。この課題に対処するために、疑似キャプション ラベリング (PCL) という名前のシンプルで効果的な方法を提案します。これは、画像キャプション モデルを利用して、オブジェクト インスタンスをさまざまな視点から説明するキャプションを生成します。結果として得られる疑似キャプション ラベルは、知識を抽出するための高密度のサンプルを提供します。 LVIS ベンチマークでは、重複排除された VisualGenome データセットでトレーニングされた最適なモデルは、最先端のパフォーマンスに匹敵する 34.5 の AP と 30.6 の APr を達成しています。 PCL のシンプルさと柔軟性は、モデル アーキテクチャやトレーニング プロセスに制限を課すことなく、任意の画像キャプション モデルで使用できる簡単な前処理手法であるため、他の注目すべき機能です。
Recent open-vocabulary detection methods aim to detect novel objects by distilling knowledge from vision-language models (VLMs) trained on a vast amount of image-text pairs. To improve the effectiveness of these methods, researchers have utilized datasets with a large vocabulary that contains a large number of object classes, under the assumption that such data will enable models to extract comprehensive knowledge on the relationships between various objects and better generalize to unseen object classes. In this study, we argue that more fine-grained labels are necessary to extract richer knowledge about novel objects, including object attributes and relationships, in addition to their names. To address this challenge, we propose a simple and effective method named Pseudo Caption Labeling (PCL), which utilizes an image captioning model to generate captions that describe object instances from diverse perspectives. The resulting pseudo caption labels offer dense samples for knowledge distillation. On the LVIS benchmark, our best model trained on the de-duplicated VisualGenome dataset achieves an AP of 34.5 and an APr of 30.6, comparable to the state-of-the-art performance. PCL's simplicity and flexibility are other notable features, as it is a straightforward pre-processing technique that can be used with any image captioning model without imposing any restrictions on model architecture or training process.
updated: Thu Mar 23 2023 05:10:22 GMT+0000 (UTC)
published: Thu Mar 23 2023 05:10:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト