従来の機械学習フレームワークは、予測モデルをトレーニングするために、おそらく大きなデータセットへのアクセスを想定しています。ただし、多くの実際のアプリケーションでは、データは一度に到着するのではなく、時間の経過とともにバッチで到着します。これにより、モデルの精度とそのようなモデルを取得する時間との間に自然なトレードオフが生じます。貪欲な予測子は、バッチが利用可能になるとすぐにバッチでトレーニングすることにより、重要な予測を生成できますが、将来のデータを最適に使用しない可能性もあります。一方、遅延予測子は、複数のバッチをより大きなデータセットに集約するために長時間待機する可能性がありますが、最終的にははるかに優れたパフォーマンスを提供します。この作業では、このようなストリーミング学習設定を検討します。これは、マクロスケールで学習するときにいつでも吹き替えます}(ALMA)。これは、データの単一のチャンクのレベルではなく、大きなバッチのシーケンス全体のレベルで適用されるいつでも学習のインスタンスです。最初にこの学習設定を形式化し、次に、学習者が特定のメモリと計算予算に対して特定のタスクでどの程度うまく機能するかを評価するためのメトリックを導入し、最後に、マクロスケールでいつでも学習できるように再利用された3つの標準ベンチマークで約30のベースラインアプローチをテストします。私たちの調査結果は、どのモデルも全面的に最良のトレードオフを打つことはないことを示しています。リプレイベースの方法ではエラー率が最も低くなりますが、計算量が5〜10倍に増加します。時間の経過とともに容量が増加するアプローチは、トレーニングフロップの観点からはより優れたスケーリングを提供しますが、エラー率の観点からはより単純なアンサンブル手法よりもパフォーマンスが低くなります。全体として、ALMAは、実践者が日常的に直面する典型的な学習環境の優れた抽象化と、動的モデルの効率的な学習に関心のある人々のための未解決のモデリング問題のセットの両方を提供します。
Classical machine learning frameworks assume access to a possibly large dataset in order to train a predictive model. In many practical applications however, data does not arrive all at once, but in batches over time. This creates a natural trade-off between accuracy of a model and time to obtain such a model. A greedy predictor could produce non-trivial predictions by immediately training on batches as soon as these become available but, it may also make suboptimal use of future data. On the other hand, a tardy predictor could wait for a long time to aggregate several batches into a larger dataset, but ultimately deliver a much better performance. In this work, we consider such a streaming learning setting, which we dub anytime learning at macroscale} (ALMA). It is an instance of anytime learning applied not at the level of a single chunk of data, but at the level of the entire sequence of large batches. We first formalize this learning setting, we then introduce metrics to assess how well learners perform on the given task for a given memory and compute budget, and finally we test about thirty baseline approaches on three standard benchmarks repurposed for anytime learning at macroscale. Our findings indicate that no model strikes the best trade-off across the board. While replay-based methods attain the lowest error rate, they also incur in a 5 to 10 times increase of compute. Approaches that grow capacity over time do offer better scaling in terms of training flops, but they also underperform simpler ensembling methods in terms of error rate. Overall, ALMA offers both a good abstraction of the typical learning setting faced everyday by practitioners, and a set of unsolved modeling problems for those interested in efficient learning of dynamic models.