arXiv reaDer
モデルスープ:複数の微調整されたモデルの重みを平均化すると、推論時間を増やすことなく精度が向上します
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time
モデルの精度を最大化するための従来のレシピは、(1)さまざまなハイパーパラメータを使用して複数のモデルをトレーニングし、(2)保持された検証セットで最高のパフォーマンスを発揮する個々のモデルを選択し、残りを破棄することです。このホワイトペーパーでは、事前にトレーニングされた大規模なモデルを微調整するという状況で、この手順の2番目のステップを再検討します。この場合、微調整されたモデルは単一の低エラーベイスンにあるように見えます。さまざまなハイパーパラメータ構成で微調整された複数のモデルの重みを平均化すると、精度と堅牢性が向上することがよくあります。従来のアンサンブルとは異なり、追加の推論やメモリコストを発生させることなく、多くのモデルを平均化できます。結果を「モデルスープ」と呼びます。 CLIP、ALIGN、JFTで事前トレーニングされたViT-Gなどの事前トレーニングされた大規模なモデルを微調整する場合、私たちのスープレシピは、ImageNetのハイパーパラメータースイープで最良のモデルよりも大幅に改善されます。ハイライトとして、結果として得られるViT-Gモデルは、新しい最先端のImageNetで90.94%のトップ1精度を達成します。さらに、モデルスープアプローチが複数の画像分類および自然言語処理タスクに拡張され、配布外のパフォーマンスが向上し、新しいダウンストリームタスクでのゼロショットパフォーマンスが向上することを示します。最後に、重み平均化とロジットアンサンブルのパフォーマンスの類似性を、予測の損失と信頼性の平坦性に分析的に関連付け、この関係を経験的に検証します。
The conventional recipe for maximizing model accuracy is to (1) train multiple models with various hyperparameters and (2) pick the individual model which performs best on a held-out validation set, discarding the remainder. In this paper, we revisit the second step of this procedure in the context of fine-tuning large pre-trained models, where fine-tuned models often appear to lie in a single low error basin. We show that averaging the weights of multiple models fine-tuned with different hyperparameter configurations often improves accuracy and robustness. Unlike a conventional ensemble, we may average many models without incurring any additional inference or memory costs -- we call the results "model soups." When fine-tuning large pre-trained models such as CLIP, ALIGN, and a ViT-G pre-trained on JFT, our soup recipe provides significant improvements over the best model in a hyperparameter sweep on ImageNet. As a highlight, the resulting ViT-G model attains 90.94% top-1 accuracy on ImageNet, a new state of the art. Furthermore, we show that the model soup approach extends to multiple image classification and natural language processing tasks, improves out-of-distribution performance, and improves zero-shot performance on new downstream tasks. Finally, we analytically relate the performance similarity of weight-averaging and logit-ensembling to flatness of the loss and confidence of the predictions, and validate this relation empirically.
updated: Thu Mar 10 2022 17:03:49 GMT+0000 (UTC)
published: Thu Mar 10 2022 17:03:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト