arXiv reaDer
コンピュータビジョンモデルにおける教師ありおよび自己教師あり事前トレーニングの宝くじの仮説
The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
コンピュータビジョンの世界では、従来のImageNetの教師あり事前トレーニングと、最近登場したsimCLRやMoCoなどの自己教師あり事前トレーニングの両方を含む、さまざまな事前トレーニングモデルで再び熱狂が高まっています。事前にトレーニングされた重みは、分類、検出、セグメンテーションなど、さまざまなダウンストリームタスクを後押しすることがよくあります。最新の研究は、事前トレーニングが巨大なモデル容量から利益を得ると示唆しています。私たちはここに興味があり、質問します:事前トレーニング後、事前トレーニングされたモデルは、その下流の転送可能性のために実際に大きくとどまる必要がありますか?この論文では、宝くじの仮説(LTH)のレンズを通して、教師ありおよび自己教師ありの事前トレーニング済みモデルを調べます。 LTHは、(ほぼ)スクラッチから分離してトレーニングできるが、完全なモデルのパフォーマンスに到達できる、非常にスパースな一致サブネットワークを識別します。 LTHの範囲を拡張し、同じダウンストリーム転送パフォーマンスを享受する、事前にトレーニングされたコンピュータービジョンモデルに一致するサブネットワークがまだ存在するかどうかを質問します。私たちの広範な実験は、全体的に肯定的なメッセージを伝えます。ImageNet分類、simCLR、およびMoCoによって取得されたすべての事前トレーニング済みの重みから、59.04%から96.48%のスパース性で、そのような一致するサブネットワークを一貫して見つけることができます。事前にトレーニングされた完全なウェイトを使用した場合と比較して、パフォーマンスの低下は見られません。さらなる分析により、さまざまな事前トレーニングから見つかったサブネットワークは、多様なマスク構造と摂動感度を生み出す傾向があることが明らかになりました。コアLTHの観察結果は、コンピュータビジョンのトレーニング前のパラダイムに一般的に関連していると結論付けていますが、場合によっては、より繊細な議論が必要です。コードと事前トレーニング済みモデルは、https://github.com/VITA-Group/CV_LTH_Pre-trainingで入手できます。
The computer vision world has been re-gaining enthusiasm in various pre-trained models, including both classical ImageNet supervised pre-training and recently emerged self-supervised pre-training such as simCLR and MoCo. Pre-trained weights often boost a wide range of downstream tasks including classification, detection, and segmentation. Latest studies suggest that pre-training benefits from gigantic model capacity. We are hereby curious and ask: after pre-training, does a pre-trained model indeed have to stay large for its downstream transferability? In this paper, we examine supervised and self-supervised pre-trained models through the lens of the lottery ticket hypothesis (LTH). LTH identifies highly sparse matching subnetworks that can be trained in isolation from (nearly) scratch yet still reach the full models' performance. We extend the scope of LTH and question whether matching subnetworks still exist in pre-trained computer vision models, that enjoy the same downstream transfer performance. Our extensive experiments convey an overall positive message: from all pre-trained weights obtained by ImageNet classification, simCLR, and MoCo, we are consistently able to locate such matching subnetworks at 59.04% to 96.48% sparsity that transfer universally to multiple downstream tasks, whose performance see no degradation compared to using full pre-trained weights. Further analyses reveal that subnetworks found from different pre-training tend to yield diverse mask structures and perturbation sensitivities. We conclude that the core LTH observations remain generally relevant in the pre-training paradigm of computer vision, but more delicate discussions are needed in some cases. Codes and pre-trained models will be made available at: https://github.com/VITA-Group/CV_LTH_Pre-training.
updated: Mon Mar 29 2021 18:13:06 GMT+0000 (UTC)
published: Sat Dec 12 2020 21:53:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト