ニューラルネットワークの一般化エラーのモデルとデータセットのサイズへの依存性は、実際とニューラルネットワークの理論を理解する上で非常に重要です。それにもかかわらず、この依存関係の機能的な形はとらえどころのないままです。この作業では、実際の一般化エラーによく似た関数形式を提示します。モデルスケーリングの成功したコンセプト(幅、深さなど)を活用して、このようなフォームを同時に構築し、モデル/データスケール全体でそれを実現できる正確なモデルを指定できます。私たちの構築は、さまざまなモデルタイプとデータセット、ビジョンと言語タスクで、さまざまなモデル/データスケールで行われた観測から得られた洞察に従います。フォームがスケール全体の観測値によく適合し、小規模から大規模のモデルとデータの正確な予測を提供することを示します。
The dependency of the generalization error of neural networks on model and dataset size is of critical importance both in practice and for understanding the theory of neural networks. Nevertheless, the functional form of this dependency remains elusive. In this work, we present a functional form which approximates well the generalization error in practice. Capitalizing on the successful concept of model scaling (e.g., width, depth), we are able to simultaneously construct such a form and specify the exact models which can attain it across model/data scales. Our construction follows insights obtained from observations conducted over a range of model/data scales, in various model types and datasets, in vision and language tasks. We show that the form both fits the observations well across scales, and provides accurate predictions from small- to large-scale models and data.