arXiv reaDer
Budgeted Training: Rethinking Deep Neural Network Training Under Resource Constraints
 ほとんどの実用的な設定と理論的分析では、収束するまでモデルをトレーニングできると想定しています。ただし、機械学習のデータセットとモデルの複雑さが増すと、このような仮定に違反する可能性があります。実際、ハイパーパラメーター調整とニューラルアーキテクチャ検索の現在のアプローチは、実際のリソースの制約によって制限される傾向があります。したがって、非漸近的でリソースに制約のあるレジーム、つまり予算トレーニングの下でトレーニングを勉強するための正式な設定を紹介します。次の問題を分析します。「データセット、アルゴリズム、および固定リソースの予算が与えられた場合、達成可能な最高のパフォーマンスはどれですか?」最適化の反復回数に代表的なリソースとして注目します。このような設定の下では、指定された予算に従って学習率のスケジュールを調整することが重要であることを示しています。予算を意識した学習スケジュールの中では、単純な線形減衰が堅牢で高性能であることがわかります。 ImageNet(画像分類)、Kinetics(ビデオ分類)、MS COCO(オブジェクト検出およびインスタンスセグメンテーション)、Cityscapes(セマンティックセグメンテーション)の最新モデルを使用した広範な実験を通じて、主張をサポートします。また、結果を分析し、適切なスケジュールの鍵は予算の収束であることがわかりました。これは、各許容予算の終わりに勾配が消える現象です。また、迅速な収束のための既存のアプローチを再検討し、予算を考慮した学習スケジュールが、(実践的だが未開拓の)予算トレーニング設定の下でそのようなアプローチを容易に上回ることを示します。
In most practical settings and theoretical analyses, one assumes that a model can be trained until convergence. However, the growing complexity of machine learning datasets and models may violate such assumptions. Indeed, current approaches for hyper-parameter tuning and neural architecture search tend to be limited by practical resource constraints. Therefore, we introduce a formal setting for studying training under the non-asymptotic, resource-constrained regime, i.e., budgeted training. We analyze the following problem: "given a dataset, algorithm, and fixed resource budget, what is the best achievable performance?" We focus on the number of optimization iterations as the representative resource. Under such a setting, we show that it is critical to adjust the learning rate schedule according to the given budget. Among budget-aware learning schedules, we find simple linear decay to be both robust and high-performing. We support our claim through extensive experiments with state-of-the-art models on ImageNet (image classification), Kinetics (video classification), MS COCO (object detection and instance segmentation), and Cityscapes (semantic segmentation). We also analyze our results and find that the key to a good schedule is budgeted convergence, a phenomenon whereby the gradient vanishes at the end of each allowed budget. We also revisit existing approaches for fast convergence and show that budget-aware learning schedules readily outperform such approaches under (the practical but under-explored) budgeted training setting.
updated: Tue Jun 30 2020 00:45:59 GMT+0000 (UTC)
published: Sun May 12 2019 17:49:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト