arXiv reaDer
きめの細かいドメインのゼロショット理解におけるテクスチャの活用
Leveraging Textures in Zero-shot Understanding of Fine-Grained Domains
テクスチャを使用して、さまざまなきめの細かいドメインのオブジェクトの外観を記述することができます。テクスチャはローカライズされており、オブジェクトのIDに依存しない方法でプロパティを参照できることがよくあります。さらに、色、パターン、構造、周期性、確率性などのプロパティに対応するテクスチャを記述するための豊富な語彙があります。これに動機付けられて、自然画像のテクスチャ属性を認識する際の大規模な言語およびビジョンモデル(CLIPなど)の有効性を研究します。最初に、テクスチャデータセットでCLIPの体系的な調査を実施しました。ここでは、CLIPが広範囲のテクスチャ用語に対して適切にカバーされていることがわかりました。 CLIPは、色とパターンの用語(たとえば、赤い点や黄色の縞)で構成される構成句も処理できます。次に、これらの属性によって、既存のデータセットでゼロショットのきめ細かい分類がどのように可能になるかを示します。
Textures can be used to describe the appearance of objects in a wide range of fine-grained domains. Textures are localized and one can often refer to their properties in a manner that is independent of the object identity. Moreover, there is a rich vocabulary to describe textures corresponding to properties such as their color, pattern, structure, periodicity, stochasticity, and others. Motivated by this, we study the effectiveness of large-scale language and vision models (e.g., CLIP) at recognizing texture attributes in natural images. We first conduct a systematic study of CLIP on texture datasets where we find that it has good coverage for a wide range of texture terms. CLIP can also handle compositional phrases that consist of color and pattern terms (e.g., red dots or yellow stripes). We then show how these attributes allow for zero-shot fine-grained categorization on existing datasets.
updated: Tue Mar 22 2022 04:07:20 GMT+0000 (UTC)
published: Tue Mar 22 2022 04:07:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト