arXiv reaDer
分解、調整、構成: ドメインの一般化のために周波数を操作することによる効果的な正規化
Decompose, Adjust, Compose: Effective Normalization by Playing with Frequency for Domain Generalization
ドメイン一般化 (DG) は、コンピューター ビジョン モデルの堅牢性を評価するための主要なタスクです。多くの以前の研究では、DG の正規化が使用されています。正規化では、統計と正規化された機能は、それぞれスタイルとコンテンツと見なされます。ただし、コンテンツとスタイルの境界が不明確であるため、スタイルを削除するとコンテンツのバリエーションの問題があります。この研究では、振幅と位相がそれぞれスタイルと内容と見なされる周波数領域の観点からこの問題に対処します。まず、フーリエ変換式の数学的導出を通じて、正規化の定量的な位相変動を検証します。次に、これに基づいて、スペクトル分解によって保存コンテンツとしてスタイルのみを除去する新しい正規化方法、PCNorm を提案します。さらに、高度な PCNorm バリアントである CCNorm と SCNorm を提案します。これは、コンテンツとスタイルのバリエーションの度合いをそれぞれ調整します。したがって、DG のドメインにとらわれない表現を学習できます。正規化手法を使用して、ドメイン ギャップにロバストな ResNet バリアント モデル、DAC-P および DAC-SC を提案します。提案されたモデルは、他の最近の DG メソッドよりも優れています。 DAC-SC は、PACS、VLCS、Office-Home、DomainNet、および TerraIncognita の 5 つのデータセットで平均 65.6% の最先端のパフォーマンスを達成しています。
Domain generalization (DG) is a principal task to evaluate the robustness of computer vision models. Many previous studies have used normalization for DG. In normalization, statistics and normalized features are regarded as style and content, respectively. However, it has a content variation problem when removing style because the boundary between content and style is unclear. This study addresses this problem from the frequency domain perspective, where amplitude and phase are considered as style and content, respectively. First, we verify the quantitative phase variation of normalization through the mathematical derivation of the Fourier transform formula. Then, based on this, we propose a novel normalization method, PCNorm, which eliminates style only as the preserving content through spectral decomposition. Furthermore, we propose advanced PCNorm variants, CCNorm and SCNorm, which adjust the degrees of variations in content and style, respectively. Thus, they can learn domain-agnostic representations for DG. With the normalization methods, we propose ResNet-variant models, DAC-P and DAC-SC, which are robust to the domain gap. The proposed models outperform other recent DG methods. The DAC-SC achieves an average state-of-the-art performance of 65.6% on five datasets: PACS, VLCS, Office-Home, DomainNet, and TerraIncognita.
updated: Wed Mar 15 2023 12:39:19 GMT+0000 (UTC)
published: Sat Mar 04 2023 05:23:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト