arXiv reaDer
リモートセンシングタスクのための自己監視された材料とテクスチャ表現学習
Self-Supervised Material and Texture Representation Learning for Remote Sensing Tasks
自己監視学習は、手動で注釈を付けたラベルを使用せずに画像の特徴表現を学習することを目的としています。これは、ダウンストリームタスクのより高速な収束と優れたパフォーマンスに寄与する有用な初期ネットワークの重みを取得するための先行ステップとしてよく使用されます。自己監視により、ラベルを使用せずに教師あり学習と教師なし学習の間のドメインギャップを減らすことができますが、教師あり目的では、効果的な転移学習のために、下流のタスクに対する強い誘導バイアスが必要です。この作品では、古典的なマテリアルとテクスチャの方法に触発された、MATTER(MATerial and TExture Representation Learning)という名前のマテリアルとテクスチャベースの自己監視方法を紹介します。マテリアルとテクスチャは、触覚特性、色、鏡面反射性など、あらゆる表面を効果的に表現できます。ひいては、マテリアルとテクスチャの効果的な表現は、前述のマテリアルとテクスチャに強く関連する他のセマンティッククラスを記述することができます。 MATTERは、変更されていない領域でのマルチテンポラルで空間的に位置合わせされたリモートセンシング画像を活用して、マテリアルとテクスチャ表現の一貫性を実現するメカニズムとして、照明と視角の不変性を学習します。教師なし事前トレーニング方法では、教師なしおよび微調整されたセットアップで最大24.22%および6.33%のパフォーマンスの向上が可能であり、変化検出、土地被覆分類、およびセマンティックセグメンテーションタスクで最大76%高速な収束が可能であることを示します。
Self-supervised learning aims to learn image feature representations without the usage of manually annotated labels. It is often used as a precursor step to obtain useful initial network weights which contribute to faster convergence and superior performance of downstream tasks. While self-supervision allows one to reduce the domain gap between supervised and unsupervised learning without the usage of labels, the self-supervised objective still requires a strong inductive bias to downstream tasks for effective transfer learning. In this work, we present our material and texture based self-supervision method named MATTER (MATerial and TExture Representation Learning), which is inspired by classical material and texture methods. Material and texture can effectively describe any surface, including its tactile properties, color, and specularity. By extension, effective representation of material and texture can describe other semantic classes strongly associated with said material and texture. MATTER leverages multi-temporal, spatially aligned remote sensing imagery over unchanged regions to learn invariance to illumination and viewing angle as a mechanism to achieve consistency of material and texture representation. We show that our self-supervision pre-training method allows for up to 24.22% and 6.33% performance increase in unsupervised and fine-tuned setups, and up to 76% faster convergence on change detection, land cover classification, and semantic segmentation tasks.
updated: Fri Dec 03 2021 04:59:13 GMT+0000 (UTC)
published: Fri Dec 03 2021 04:59:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト