画像を意味のある基礎コンポーネントに分割することは、画像の編集と理解の両方にとって重要な最初のステップです。アーティストが選択した領域と同じ素材を示す写真の領域を選択できる方法を紹介します。私たちが提案するアプローチは、シェーディング、鏡面ハイライト、キャストシャドウに対して堅牢であり、実際の画像での選択を可能にします。セマンティック セグメンテーションに依存していないため (異なる木材や金属を一緒に選択すべきではありません)、問題をユーザーが指定した画像の位置に基づいた類似性に基づくグループ化問題として定式化します。特に、提案された相互類似性モジュールおよび MLP ヘッドと組み合わせた教師なし DINO 機能を活用して、画像内のマテリアルの類似性を抽出することを提案します。私たちがリリースする新しい合成画像データセットでモデルをトレーニングします。私たちの方法が現実世界の画像によく一般化できることを示します。私たちは、さまざまなマテリアルの特性や照明に対するモデルの動作を注意深く分析します。さらに、手書きで注釈を付けた 50 枚の実際の写真のベンチマークと比較して評価します。さらに、マテリアル編集、ビデオ内選択、類似マテリアルを含むオブジェクト写真の検索など、一連のアプリケーションでモデルを実証します。
Separating an image into meaningful underlying components is a crucial first step for both editing and understanding images. We present a method capable of selecting the regions of a photograph exhibiting the same material as an artist-chosen area. Our proposed approach is robust to shading, specular highlights, and cast shadows, enabling selection in real images. As we do not rely on semantic segmentation (different woods or metal should not be selected together), we formulate the problem as a similarity-based grouping problem based on a user-provided image location. In particular, we propose to leverage the unsupervised DINO features coupled with a proposed Cross-Similarity module and an MLP head to extract material similarities in an image. We train our model on a new synthetic image dataset, that we release. We show that our method generalizes well to real-world images. We carefully analyze our model's behavior on varying material properties and lighting. Additionally, we evaluate it against a hand-annotated benchmark of 50 real photographs. We further demonstrate our model on a set of applications, including material editing, in-video selection, and retrieval of object photographs with similar materials.