arXiv reaDer
SWAD: フラットな最小値を求めることによる領域の一般化
SWAD: Domain Generalization by Seeking Flat Minima
ドメイン汎化 (DG) 手法は、ソース ドメインからのトレーニング データのみを使用して、見えないターゲット ドメインへの汎化可能性を達成することを目的としています。さまざまな DG 手法が提案されていますが、最近の研究では、DomainBed と呼ばれる公正な評価プロトコルの下で、単純な経験的リスク最小化 (ERM) アプローチが以前の手法に匹敵するか、それを上回るパフォーマンスを発揮することが示されています。残念ながら、単純に複雑な非凸損失関数で ERM を解くと、鋭い最小値を求めることにより、最適以下の一般化可能性に簡単につながる可能性があります。この論文では、フラットな最小値を見つけると、ドメインの汎化ギャップが小さくなることを理論的に示します。また、フラットな最小値を見つけるために、確率的重み平均化密度 (SWAD) と呼ばれる、シンプルで効果的な方法を提案します。 SWAD は、密で過剰適合を意識した確率的重みサンプリング戦略によって、バニラ SWA よりも平坦な最小値を見つけ、過剰適合の影響を受けにくい。 SWAD は、PACS、VLCS、OfficeHome、TerraIncognita、DomainNet の 5 つの DG ベンチマークで最先端のパフォーマンスを示しており、ドメイン外の精度で平均 +1.6% という大きなマージンを維持しています。また、SWAD をデータ拡張や一貫性正則化手法などの従来の一般化手法と比較して、パフォーマンスの顕著な改善が、ドメイン内の一般化可能性の向上からではなく、平坦な最小値を求めることに由来することを確認します。最後になりましたが、SWAD は変更なしで既存の DG メソッドに容易に適応できます。 SWAD と既存の DG メソッドの組み合わせにより、DG のパフォーマンスがさらに向上します。
Domain generalization (DG) methods aim to achieve generalizability to an unseen target domain by using only training data from the source domains. Although a variety of DG methods have been proposed, a recent study shows that under a fair evaluation protocol, called DomainBed, the simple empirical risk minimization (ERM) approach works comparable to or even outperforms previous methods. Unfortunately, simply solving ERM on a complex, non-convex loss function can easily lead to sub-optimal generalizability by seeking sharp minima. In this paper, we theoretically show that finding flat minima results in a smaller domain generalization gap. We also propose a simple yet effective method, named Stochastic Weight Averaging Densely (SWAD), to find flat minima. SWAD finds flatter minima and suffers less from overfitting than does the vanilla SWA by a dense and overfit-aware stochastic weight sampling strategy. SWAD shows state-of-the-art performances on five DG benchmarks, namely PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet, with consistent and large margins of +1.6% averagely on out-of-domain accuracy. We also compare SWAD with conventional generalization methods, such as data augmentation and consistency regularization methods, to verify that the remarkable performance improvements are originated from by seeking flat minima, not from better in-domain generalizability. Last but not least, SWAD is readily adaptable to existing DG methods without modification; the combination of SWAD and an existing DG method further improves DG performances.
updated: Tue Jun 08 2021 03:47:52 GMT+0000 (UTC)
published: Wed Feb 17 2021 06:42:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト