ディープラーニングの現在の最適化研究における主な課題は、各更新ステップの最適なステップサイズを自動的に見つけることです。最適なステップサイズは、更新ステップ方向の損失の形状と密接に関連しています。しかし、この形はまだ詳細に検討されていません。この作業は、負の勾配方向の線上のバッチ損失がほとんど局所的に凸状であり、1次元放物線近似に適していることを経験的に示しています。この放物線特性を利用することにより、損失形状に依存する更新ステップを実行する、シンプルで堅牢なライン探索アプローチを導入します。私たちのアプローチは、放物線近似、直線探索、共役勾配法などのよく知られた方法を組み合わせて、効率的に実行します。他のステップサイズ推定方法を上回り、手作業で設計されたステップサイズスケジュールを必要とせずに、さまざまな実験で一般的な最適化方法と競合します。したがって、ステップサイズのスケジュールが不明であるか、うまく機能しない目的にとっては興味深いことです。私たちの広範な評価には、いくつかのデータセットとアーキテクチャに対する複数の包括的なハイパーパラメータグリッド検索が含まれます。最後に、ライン探索アプローチとの関係を含め、バッチ損失と正確な損失のコンテキストでの正確なライン探索の一般的な調査を提供します。
A major challenge in current optimization research for deep learning is to automatically find optimal step sizes for each update step. The optimal step size is closely related to the shape of the loss in the update step direction. However, this shape has not yet been examined in detail. This work shows empirically that the batch loss over lines in negative gradient direction is mostly convex locally and well suited for one-dimensional parabolic approximations. By exploiting this parabolic property we introduce a simple and robust line search approach, which performs loss-shape dependent update steps. Our approach combines well-known methods such as parabolic approximation, line search and conjugate gradient, to perform efficiently. It surpasses other step size estimating methods and competes with common optimization methods on a large variety of experiments without the need of hand-designed step size schedules. Thus, it is of interest for objectives where step-size schedules are unknown or do not perform well. Our extensive evaluation includes multiple comprehensive hyperparameter grid searches on several datasets and architectures. Finally, we provide a general investigation of exact line searches in the context of batch losses and exact losses, including their relation to our line search approach.