A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark
 表現学習は、高価なラベル付きデータセットを使用せずに、視覚タスクのロングテールのディープラーニングのロックを解除することを約束します。しかし、一般的な視覚表現の統一された評価がないため、進歩が妨げられています。一般的なプロトコルは、制約が多すぎる(線形分類)、多様性が制限されている(ImageNet、CIFAR、Pascal-VOC)、または表現の品質にわずかに関連しているだけです(ELBO、再構成エラー)。視覚的タスク適応ベンチマーク(VTAB)を提示します。これは、少数の例を使用して、多様で目に見えないタスクに適応するものとして優れた表現を定義します。 VTABを使用して、多くの一般に公開されている一般的な表現学習アルゴリズムの大規模な研究を行っています。アーキテクチャやチューニングの予算などの交絡因子を慎重に制御します。次のような質問に対処します。ImageNetの表現は、標準の自然なデータセットを超えてどの程度効果的ですか?生成モデルと識別モデルを介して訓練された表現はどのように比較されますか?自己監督はどの程度ラベルを置き換えることができますか?そして、私たちは一般的な視覚表現にどれだけ近いのでしょうか?
Representation learning promises to unlock deep learning for the long tail of vision tasks without expensive labelled datasets. Yet, the absence of a unified evaluation for general visual representations hinders progress. Popular protocols are often too constrained (linear classification), limited in diversity (ImageNet, CIFAR, Pascal-VOC), or only weakly related to representation quality (ELBO, reconstruction error). We present the Visual Task Adaptation Benchmark (VTAB), which defines good representations as those that adapt to diverse, unseen tasks with few examples. With VTAB, we conduct a large-scale study of many popular publicly-available representation learning algorithms. We carefully control confounders such as architecture and tuning budget. We address questions like: How effective are ImageNet representations beyond standard natural datasets? How do representations trained via generative and discriminative models compare? To what extent can self-supervision replace labels? And, how close are we to general visual representations?
updated: Fri Feb 21 2020 13:36:15 GMT+0000 (UTC)
published: Tue Oct 01 2019 17:06:29 GMT+0000 (UTC)
