arXiv reaDer
オープン語彙属性検出
Open-vocabulary Attribute Detection
視覚言語モデリングにより、テキスト プロンプトを使用してゼロ ショット方式で予測をクエリできるオープン ボキャブラリー タスクが可能になりました。既存のオープン語彙タスクはオブジェクト クラスに焦点を当てていますが、信頼できる属性に焦点を当てた評価ベンチマークがないため、オブジェクト属性に関する研究は限られています。このホワイト ペーパーでは、Open-Vocabulary Attribute Detection (OVAD) タスクと、対応する OVAD ベンチマークを紹介します。新しいタスクとベンチマークの目的は、視覚言語モデルによって学習されたオブジェクト レベルの属性情報を調査することです。この目的のために、MS COCO の 80 のオブジェクト クラスの 117 の属性クラスをカバーする、明確で密に注釈が付けられたテスト セットを作成しました。これには、オープンな語彙評価を可能にする肯定的および否定的な注釈が含まれています。全体として、ベンチマークは 140 万の注釈で構成されています。参考までに、オープン語彙属性検出の最初のベースライン メソッドを提供します。さらに、いくつかの基盤モデルの属性検出パフォーマンスを調査することにより、ベンチマークの価値を実証します。プロジェクトページ https://ovad-benchmark.github.io/
Vision-language modeling has enabled open-vocabulary tasks where predictions can be queried using any text prompt in a zero-shot manner. Existing open-vocabulary tasks focus on object classes, whereas research on object attributes is limited due to the lack of a reliable attribute-focused evaluation benchmark. This paper introduces the Open-Vocabulary Attribute Detection (OVAD) task and the corresponding OVAD benchmark. The objective of the novel task and benchmark is to probe object-level attribute information learned by vision-language models. To this end, we created a clean and densely annotated test set covering 117 attribute classes on the 80 object classes of MS COCO. It includes positive and negative annotations, which enables open-vocabulary evaluation. Overall, the benchmark consists of 1.4 million annotations. For reference, we provide a first baseline method for open-vocabulary attribute detection. Moreover, we demonstrate the benchmark's value by studying the attribute detection performance of several foundation models. Project page https://ovad-benchmark.github.io/
updated: Wed Nov 23 2022 12:34:43 GMT+0000 (UTC)
published: Wed Nov 23 2022 12:34:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト