arXiv reaDer
合成から実際への転送のスケーリング法則:事前トレーニングはどの程度効果的ですか?
A Scaling Law for Synthetic-to-Real Transfer: How Much Is Your Pre-training Effective?
合成から実際への転送学習は、合成で生成されたデータセットを使用してモデルを事前トレーニングし、実際のビジョンタスクでのパフォーマンスを向上させるフレームワークです。合成画像を使用することの最も重要な利点は、グラウンドトゥルースラベルが自動的に利用可能になり、人的コストなしでデータサイズを無制限に拡張できることです。ただし、合成データには大きなドメインギャップがある可能性があり、その場合、データサイズを増やしてもパフォーマンスは向上しません。どうすればそれを知ることができますか?この研究では、事前トレーニングデータの量からパフォーマンスを予測する単純なスケーリング則を導き出します。法則のパラメータを推定することにより、データを増やすべきか、画像合成の設定を変更すべきかを判断できます。さらに、学習ダイナミクスを考慮して転移学習の理論を分析し、導出された一般化限界が私たちの経験的発見と一致していることを確認します。ベンチマークタスクのさまざまな実験設定、モデルサイズ、および合成画像の複雑さについて、スケーリング則を経験的に検証しました。
Synthetic-to-real transfer learning is a framework in which a synthetically generated dataset is used to pre-train a model to improve its performance on real vision tasks. The most significant advantage of using synthetic images is that the ground-truth labels are automatically available, enabling unlimited expansion of the data size without human cost. However, synthetic data may have a huge domain gap, in which case increasing the data size does not improve the performance. How can we know that? In this study, we derive a simple scaling law that predicts the performance from the amount of pre-training data. By estimating the parameters of the law, we can judge whether we should increase the data or change the setting of image synthesis. Further, we analyze the theory of transfer learning by considering learning dynamics and confirm that the derived generalization bound is consistent with our empirical findings. We empirically validated our scaling law on various experimental settings of benchmark tasks, model sizes, and complexities of synthetic images.
updated: Fri Oct 08 2021 20:57:04 GMT+0000 (UTC)
published: Wed Aug 25 2021 02:29:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト