arXiv reaDer
自己監視視覚表現学習のための意味認識生成
Semantic-Aware Generation for Self-Supervised Visual Representation Learning
本論文では、生成プロキシと識別プロキシの両方を含む自己監視視覚表現学習アプローチを提案します。ここでは、ターゲットネットワークに中間レベルの特徴に基づいて元の画像を復元するように要求することにより、前者の部分に焦点を当てます。元の画像と生成された画像の間のピクセルレベルの類似性に主に焦点を当てた以前の作業とは異なり、生成された画像に保持される詳細ではなく、より豊富なセマンティクスを促進するために、セマンティック認識生成(SaGe)を提唱します。 SaGeを実装するための中心的なアイデアは、セマンティック対応の機能を抽出するために、ラベルなしで事前にトレーニングされたディープネットワークであるエバリュエーターを使用することです。 SaGeは、ビュー固有の機能でターゲットネットワークを補完するため、集中的なデータ拡張によってもたらされるセマンティックの低下を軽減します。 ImageNet-1KでSaGeを実行し、最近傍検定、線形分類、詳細な画像認識を含む5つのダウンストリームタスクで事前トレーニング済みモデルを評価し、より強力な視覚的表現を学習する能力を示します。
In this paper, we propose a self-supervised visual representation learning approach which involves both generative and discriminative proxies, where we focus on the former part by requiring the target network to recover the original image based on the mid-level features. Different from prior work that mostly focuses on pixel-level similarity between the original and generated images, we advocate for Semantic-aware Generation (SaGe) to facilitate richer semantics rather than details to be preserved in the generated image. The core idea of implementing SaGe is to use an evaluator, a deep network that is pre-trained without labels, for extracting semantic-aware features. SaGe complements the target network with view-specific features and thus alleviates the semantic degradation brought by intensive data augmentations. We execute SaGe on ImageNet-1K and evaluate the pre-trained models on five downstream tasks including nearest neighbor test, linear classification, and fine-scaled image recognition, demonstrating its ability to learn stronger visual representations.
updated: Thu Nov 25 2021 16:46:13 GMT+0000 (UTC)
published: Thu Nov 25 2021 16:46:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト