arXiv reaDer
コンピュータビジョンモデルにおける教師ありおよび自己教師あり事前トレーニングの宝くじの仮説
The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
コンピュータビジョンの世界は、従来のImageNet教師あり事前トレーニングと、最近登場したsimCLRやMoCoなどの自己教師あり事前トレーニングの両方を含む、さまざまな事前トレーニングモデルで再び熱狂を呼んでいます。事前にトレーニングされた重みは、分類、検出、セグメンテーションなど、さまざまなダウンストリームタスクを後押しすることがよくあります。最新の研究は、事前トレーニングが巨大なモデル容量から利益を得ると示唆しています。私たちはここに興味があり、質問します:事前トレーニング後、事前トレーニングされたモデルは、その普遍的なダウンストリーム転送可能性のために実際に大きくとどまる必要がありますか?この論文では、宝くじの仮説(LTH)のレンズを通して、教師ありおよび自己教師ありの事前トレーニング済みモデルを調べます。 LTHは、完全なモデルのパフォーマンスに到達するために、(ほぼ)スクラッチから分離してトレーニングできる非常にスパースな一致サブネットワークを識別します。 LTHの範囲を拡張して、同じダウンストリーム転送パフォーマンスを享受する、一致するサブネットワークが事前トレーニングモデルにまだ存在するかどうかを質問します。私たちの広範な実験は、全体的に肯定的なメッセージを伝えます。ImageNet分類、simCLR、およびMoCoによって取得されたすべての事前トレーニング済みの重みから、パフォーマンスが複数のダウンストリームタスクに普遍的に転送される59.04%から96.48%のスパース性でそのような一致するサブネットワークを一貫して見つけることができます。事前にトレーニングされた完全なウェイトを使用した場合と比較して、劣化は見られません。さらなる分析により、さまざまな事前トレーニングから見つかったサブネットワークは、多様なマスク構造と摂動感度を生み出す傾向があることが明らかになりました。コアLTHの観察結果は、コンピュータビジョンのトレーニング前のパラダイムに一般的に関連していると結論付けていますが、場合によっては、より繊細な議論が必要です。コードと事前トレーニング済みモデルは、https://github.com/VITA-Group/CV_LTH_Pre-trainingで入手できます。
The computer vision world has been re-gaining enthusiasm in various pre-trained models, including both classical ImageNet supervised pre-training and recently emerged self-supervised pre-training such as simCLR and MoCo. Pre-trained weights often boost a wide range of downstream tasks including classification, detection, and segmentation. Latest studies suggest that the pre-training benefits from gigantic model capacity. We are hereby curious and ask: after pre-training, does a pre-trained model indeed have to stay large for its universal downstream transferability? In this paper, we examine the supervised and self-supervised pre-trained models through the lens of lottery ticket hypothesis (LTH). LTH identifies highly sparse matching subnetworks that can be trained in isolation from (nearly) scratch, to reach the full models' performance. We extend the scope of LTH to questioning whether matching subnetworks still exist in the pre-training models, that enjoy the same downstream transfer performance. Our extensive experiments convey an overall positive message: from all pre-trained weights obtained by ImageNet classification, simCLR and MoCo, we are consistently able to locate such matching subnetworks at 59.04% to 96.48% sparsity that transfer universally to multiple downstream tasks, whose performance see no degradation compared to using full pre-trained weights. Further analyses reveal that subnetworks found from different pre-training tend to yield diverse mask structures and perturbation sensitivities. We conclude that the core LTH observations remain generally relevant in the pre-training paradigm of computer vision, but more delicate discussions are needed in some cases. Codes and pre-trained models will be made available at: https://github.com/VITA-Group/CV_LTH_Pre-training.
updated: Sat Dec 12 2020 21:53:55 GMT+0000 (UTC)
published: Sat Dec 12 2020 21:53:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト