arXiv reaDer
自己監視型の事前トレーニングは、ストリーミングデータでどの程度うまく機能しますか?
How Well Does Self-Supervised Pre-Training Perform with Streaming Data?
自己監視型の事前トレーニングに関するこれまでの作業は、共同トレーニングシナリオに焦点を当てています。このシナリオでは、ラベルのない大量のデータが一度に入力として提供されると想定され、その後、学習者がトレーニングされます。残念ながら、このような問題の設定は、多くの実際のタスクが順次学習に依存しているため、実行不可能ではないにしても非現実的であることがよくあります。たとえば、データは分散化されているか、ストリーミング方式で収集されます。このホワイトペーパーでは、この見落とされた設定でのモデルの動作に光を当てることを目的として、ストリーミングデータを使用した自己監視型の事前トレーニングに関する最初の徹底的かつ専用の調査を実施します。具体的には、ImageNetとDomainNetからの事前トレーニングストリーミングデータの4つのカテゴリで500を超えるモデルを事前トレーニングし、3つのタイプのダウンストリームタスクと12の異なるダウンストリームデータセットでそれらを評価します。私たちの研究によると、単純なデータ再生またはパラメーターの正則化により、前者のパフォーマンスはほとんどそれらと同等であるため、順次自己監視事前トレーニングが共同事前トレーニングの効率的な代替手段であることがわかります。後者の。さらに、順次教師あり学習で一般的な問題である壊滅的な忘却は、順次自己教師あり学習(SSL)で大幅に軽減されます。これは、損失状況における表現と最小値の鋭さに関する包括的な経験的分析によって十分に正当化されます。したがって、私たちの調査結果は、実際には、SSLの場合、面倒な共同トレーニングを主に順次学習に置き換えることができることを示唆しています。これにより、潜在的なアプリケーションシナリオの範囲が大幅に広がります。
Prior works on self-supervised pre-training focus on the joint training scenario, where massive unlabeled data are assumed to be given as input all at once, and only then is a learner trained. Unfortunately, such a problem setting is often impractical if not infeasible since many real-world tasks rely on sequential learning, e.g., data are decentralized or collected in a streaming fashion. In this paper, we conduct the first thorough and dedicated investigation on self-supervised pre-training with streaming data, aiming to shed light on the model behavior under this overlooked setup. Specifically, we pre-train over 500 models on four categories of pre-training streaming data from ImageNet and DomainNet and evaluate them on three types of downstream tasks and 12 different downstream datasets. Our studies show that, somehow beyond our expectation, with simple data replay or parameter regularization, sequential self-supervised pre-training turns out to be an efficient alternative for joint pre-training, as the performances of the former are mostly on par with those of the latter. Moreover, catastrophic forgetting, a common issue in sequential supervised learning, is much alleviated in sequential self-supervised learning (SSL), which is well justified through our comprehensive empirical analysis on representations and the sharpness of minima in the loss landscape. Our findings, therefore, suggest that, in practice, for SSL, the cumbersome joint training can be replaced mainly by sequential learning, which in turn enables a much broader spectrum of potential application scenarios.
updated: Sun Mar 20 2022 07:42:53 GMT+0000 (UTC)
published: Sun Apr 25 2021 06:56:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト