arXiv reaDer
モデルのキャスト:ローカライズの学習により、自己教師あり表現が向上します
CASTing Your Model: Learning to Localize Improves Self-Supervised Representations
教師あり学習(SSL)の最近の進歩により、教師ありImageNetの事前トレーニングとのギャップが大幅に埋められました。それらの成功にもかかわらず、これらの方法は主にラベルのないImageNet画像に適用されており、キュレーションされていない画像のより大きなセットでトレーニングするとわずかな増加を示します。現在のSSLメソッドは、象徴的な画像で最高のパフォーマンスを発揮し、多くのオブジェクトを含む複雑なシーン画像で苦労していると仮定します。対照的なSSLメソッドを分析すると、シーンイメージでトレーニングした場合、視覚的な接地が不十分で、監視信号の受信が不十分であることがわかります。これらの制限を克服するために、対照的注意監視チューニング(CAST)を提案します。 CASTは、教師なし顕著性マップを使用して作物をインテリジェントにサンプリングし、Grad-CAMの注意喪失を介して接地監視を提供します。 COCOでの実験は、CASTがシーン画像のSSLメソッドによって学習された機能を大幅に改善することを示し、さらなる実験は、CASTでトレーニングされたモデルが背景の変化に対してより堅牢であることを示しています。
Recent advances in self-supervised learning (SSL) have largely closed the gap with supervised ImageNet pretraining. Despite their success these methods have been primarily applied to unlabeled ImageNet images, and show marginal gains when trained on larger sets of uncurated images. We hypothesize that current SSL methods perform best on iconic images, and struggle on complex scene images with many objects. Analyzing contrastive SSL methods shows that they have poor visual grounding and receive poor supervisory signal when trained on scene images. We propose Contrastive Attention-Supervised Tuning(CAST) to overcome these limitations. CAST uses unsupervised saliency maps to intelligently sample crops, and to provide grounding supervision via a Grad-CAM attention loss. Experiments on COCO show that CAST significantly improves the features learned by SSL methods on scene images, and further experiments show that CAST-trained models are more robust to changes in backgrounds.
updated: Tue Dec 08 2020 18:50:18 GMT+0000 (UTC)
published: Tue Dec 08 2020 18:50:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト