arXiv reaDer
SWAD:フラットな最小値を求めることによるドメインの一般化
SWAD: Domain Generalization by Seeking Flat Minima
ドメイン一般化(DG)メソッドは、ソースドメインからのトレーニングデータのみを使用して、見えないターゲットドメインへの一般化を実現することを目的としています。さまざまなDG手法が提案されていますが、最近の研究では、DomainBedと呼ばれる公正な評価プロトコルの下で、単純な経験的リスク最小化(ERM)アプローチが、以前の手法と同等またはそれ以上に機能することが示されています。残念ながら、複雑な非凸損失関数でERMを解くだけでは、鋭い最小値を求めることで、一般化が最適化されない可能性があります。この論文では、フラットな最小値を見つけると、ドメインの一般化ギャップが小さくなることを理論的に示しています。また、フラットな最小値を見つけるために、Stochastic Weight Averaging Densely(SWAD)という名前のシンプルで効果的な方法を提案します。 SWADは、密でオーバーフィットを意識した確率的重みサンプリング戦略により、バニラSWAよりもフラットな最小値を見つけ、オーバーフィットの影響を受けにくくなります。 SWADは、5つのDGベンチマーク、つまりPACS、VLCS、OfficeHome、TerraIncognita、およびDomainNetで最先端のパフォーマンスを示し、ドメイン外の精度で平均+ 1.6%の一貫した大きなマージンを示します。また、SWADをデータ拡張や整合性正則化手法などの従来の一般化手法と比較して、ドメイン内の一般化可能性の向上ではなく、フラットな最小値を求めることによってパフォーマンスが大幅に向上することを確認します。大事なことを言い忘れましたが、SWADは変更なしで既存のDGメソッドに容易に適応できます。 SWADと既存のDGメソッドの組み合わせにより、DGのパフォーマンスがさらに向上します。ソースコードはhttps://github.com/khanrc/swadで入手できます。
Domain generalization (DG) methods aim to achieve generalizability to an unseen target domain by using only training data from the source domains. Although a variety of DG methods have been proposed, a recent study shows that under a fair evaluation protocol, called DomainBed, the simple empirical risk minimization (ERM) approach works comparable to or even outperforms previous methods. Unfortunately, simply solving ERM on a complex, non-convex loss function can easily lead to sub-optimal generalizability by seeking sharp minima. In this paper, we theoretically show that finding flat minima results in a smaller domain generalization gap. We also propose a simple yet effective method, named Stochastic Weight Averaging Densely (SWAD), to find flat minima. SWAD finds flatter minima and suffers less from overfitting than does the vanilla SWA by a dense and overfit-aware stochastic weight sampling strategy. SWAD shows state-of-the-art performances on five DG benchmarks, namely PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet, with consistent and large margins of +1.6% averagely on out-of-domain accuracy. We also compare SWAD with conventional generalization methods, such as data augmentation and consistency regularization methods, to verify that the remarkable performance improvements are originated from by seeking flat minima, not from better in-domain generalizability. Last but not least, SWAD is readily adaptable to existing DG methods without modification; the combination of SWAD and an existing DG method further improves DG performances. Source code is available at https://github.com/khanrc/swad.
updated: Tue Oct 26 2021 13:29:28 GMT+0000 (UTC)
published: Wed Feb 17 2021 06:42:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト