arXiv reaDer
Wave-SAN:クロスドメインの少数ショット学習のためのウェーブレットベースのスタイル拡張ネットワーク
Wave-SAN: Wavelet based Style Augmentation Network for Cross-Domain Few-Shot Learning
以前の数ショット学習(FSL)の作業は、ほとんどの場合、一般的な概念とカテゴリの自然なイメージに限定されています。これらの作品は、ソースクラスとターゲットクラスの間の視覚的な類似性が非常に高いことを前提としています。対照的に、最近提案されたクロスドメイン少数ショット学習(CD-FSL)は、多くのラベル付きの例の一般的な性質の画像から、少数のラベル付きの例のみの新しいドメイン固有のターゲットカテゴリに知識を転送することを目的としています。 CD-FSLの主な課題は、ソースドメインとターゲットドメイン間の巨大なデータシフトにあります。これは通常、まったく異なる視覚スタイルの形式です。これにより、従来のFSLメソッドを直接拡張してCD-FSLタスクに対処することは非常に簡単です。この目的のために、この論文は、ソースデータセットのスタイル分布にまたがることによってCD-FSLの問題を研究します。特に、ウェーブレット変換は、視覚的表現を形状やスタイルなどの低周波成分とテクスチャなどの高周波成分に分解できるようにするために導入されています。モデルを視覚的なスタイルに対して堅牢にするために、ソース画像は、低周波成分のスタイルを相互に交換することによって拡張されます。このアイデアを実装するために、新しいスタイル拡張(StyleAug)モジュールを提案します。さらに、Self-Supervised Learning(SSL)モジュールを提示して、スタイルが拡張された画像の予測が変更されていない画像と意味的に類似していることを確認します。これにより、スタイルを交換する際の潜在的なセマンティックドリフトの問題が回避されます。 2つのCD-FSLベンチマークでの広範な実験は、私たちの方法の有効性を示しています。コードとモデルがリリースされます。
Previous few-shot learning (FSL) works mostly are limited to natural images of general concepts and categories. These works assume very high visual similarity between the source and target classes. In contrast, the recently proposed cross-domain few-shot learning (CD-FSL) aims at transferring knowledge from general nature images of many labeled examples to novel domain-specific target categories of only a few labeled examples. The key challenge of CD-FSL lies in the huge data shift between source and target domains, which is typically in the form of totally different visual styles. This makes it very nontrivial to directly extend the classical FSL methods to address the CD-FSL task. To this end, this paper studies the problem of CD-FSL by spanning the style distributions of the source dataset. Particularly, wavelet transform is introduced to enable the decomposition of visual representations into low-frequency components such as shape and style and high-frequency components e.g., texture. To make our model robust to visual styles, the source images are augmented by swapping the styles of their low-frequency components with each other. We propose a novel Style Augmentation (StyleAug) module to implement this idea. Furthermore, we present a Self-Supervised Learning (SSL) module to ensure the predictions of style-augmented images are semantically similar to the unchanged ones. This avoids the potential semantic drift problem in exchanging the styles. Extensive experiments on two CD-FSL benchmarks show the effectiveness of our method. Our codes and models will be released.
updated: Tue Mar 15 2022 05:36:41 GMT+0000 (UTC)
published: Tue Mar 15 2022 05:36:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト