Shaping Visual Representations with Language for Few-shot Classification
私たちの世界の特徴と抽象化を説明することにより、言語は人間の学習にとって重要なツールであり、機械学習モデルの監視の有望なソースです。私たちは言語を使用して、トレーニング中に自然言語のタスクの説明が利用可能ですが、テスト時の新しいタスクでは利用できない、未踏のシナリオでの少数ショットの視覚的分類を改善します。この設定の既存のモデルは、テスト時に新しい説明をサンプリングし、それらを使用して画像を分類します。代わりに、視覚的表現を正規化して言語を予測するエンドツーエンドモデルである言語型学習(LSL)を提案します。 LSLは概念的にシンプルで、よりデータ効率が高く、2つの挑戦的な少数ショットドメインのベースラインを上回ります。
By describing the features and abstractions of our world, language is a crucial tool for human learning and a promising source of supervision for machine learning models. We use language to improve few-shot visual classification in the underexplored scenario where natural language task descriptions are available during training, but unavailable for novel tasks at test time. Existing models for this setting sample new descriptions at test time and use those to classify images. Instead, we propose language-shaped learning (LSL), an end-to-end model that regularizes visual representations to predict language. LSL is conceptually simpler, more data efficient, and outperforms baselines in two challenging few-shot domains.
updated: Mon Jun 08 2020 18:35:31 GMT+0000 (UTC)
published: Wed Nov 06 2019 23:47:32 GMT+0000 (UTC)
