arXiv reaDer
CLIP はテクスチャをどの程度理解していますか?
How well does CLIP understand texture?
自然言語で記述された自然画像のテクスチャを CLIP がどの程度理解しているかを調査します。この目的のために、CLIP の次の機能を分析します。(1) さまざまなテクスチャおよびマテリアル分類データセットに対してゼロショット学習を実行します。 (2) Describable Texture in Detail (DTDD) データセットで、赤い点や黄色のストライプなどのテクスチャの構成プロパティを表します。 (3) 鳥の体の部分の色とテクスチャーによって記述された写真で鳥を細かく分類するのに役立ちます。
We investigate how well CLIP understands texture in natural images described by natural language. To this end, we analyze CLIP's ability to: (1) perform zero-shot learning on various texture and material classification datasets; (2) represent compositional properties of texture such as red dots or yellow stripes on the Describable Texture in Detail(DTDD) dataset; and (3) aid fine-grained categorization of birds in photographs described by color and texture of their body parts.
updated: Sat Nov 05 2022 02:33:24 GMT+0000 (UTC)
published: Tue Mar 22 2022 04:07:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト