arXiv reaDer
物理ベースのレンダリングによる対照学習を使用して、あらゆる場所のあらゆる素材をワンショットで認識
One-shot recognition of any material anywhere using contrastive learning with physics-based rendering
材料とその状態の視覚的認識は、食品が調理されているかどうか、金属が錆びているかどうか、化学反応が起こっているかどうかなど、世界のほとんどの側面を理解するために不可欠です。しかし、現在の画像認識方法は特定のクラスとプロパティに限定されており、世界中の膨大な数のマテリアルの状態とテクスチャを処理できません。これに対処するために、MatSim を提示します。MatSim は、マテリアルとテクスチャ間の類似性と遷移をコンピューター ビジョンに基づいて認識するための最初のデータセットとベンチマークであり、1 つまたはいくつかの例を使用して、あらゆる条件下であらゆるマテリアルを識別することに焦点を当てています。データセットには、合成画像と実際の画像が含まれています。合成画像は、コンピューター グラフィックス アーティストによって生成されたテクスチャ、オブジェクト、および環境の膨大なコレクションを使用してレンダリングされました。材料間の混合と段階的な遷移を使用して、システムが状態間のスムーズな遷移 (徐々に調理された食品など) を使用してケースを学習できるようにします。また、飲料や化学実験室での使用例をサポートするために、透明な容器内の材料を使用して画像をレンダリングします。このデータセットを使用して、異なるオブジェクト、混合物、および環境で同じ材料を識別するシャム ネットをトレーニングします。このネットによって生成された記述子を使用して、単一の画像を使用して材料とそのサブクラスの状態を識別することができます。また、金属の状態や地盤の化学反応の種類、その他多くのユースケースなど、幅広い分野の画像を使用した最初の数ショットの材料認識ベンチマークも提示します。 MatSim 合成データセットでトレーニングされたネットは、ベンチマークで Clip のような最先端のモデルよりも優れており、他の教師なしマテリアル分類タスクでも良好な結果を達成していることを示しています。
Visual recognition of materials and their states is essential for understanding most aspects of the world, from determining whether food is cooked, metal is rusted, or a chemical reaction has occurred. However, current image recognition methods are limited to specific classes and properties and can't handle the vast number of material states and textures in the world. To address this, we present MatSim: the first dataset and benchmark for computer vision-based recognition of similarities and transitions between materials and textures, focusing on identifying any material under any conditions using one or a few examples. The dataset contains synthetic and real images. The synthetic images were rendered using giant collections of textures, objects, and environments generated by computer graphics artists. We use mixtures and gradual transitions between materials to allow the system to learn cases with smooth transitions between states (like gradually cooked food). We also render images with materials inside transparent containers to support beverage and chemistry lab use cases. We use this dataset to train a siamese net that identifies the same material in different objects, mixtures, and environments. The descriptor generated by this net can be used to identify the states of materials and their subclasses using a single image. We also present the first few-shot material recognition benchmark with images from a wide range of fields, including the state of metals and chemical reactions types of ground and many other use cases. We show that a net trained on the MatSim synthetic dataset outperforms state-of-the-art models like Clip on the benchmark and also achieves good results on other unsupervised material classification tasks.
updated: Mon Mar 13 2023 04:06:24 GMT+0000 (UTC)
published: Thu Dec 01 2022 16:49:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト