新世代の最先端のコンピューター ビジョン システムは、単純なオブジェクト カテゴリ名から説明的なキャプションまで、自然言語の監視によってトレーニングされています。この形式の監督は、大規模なデータ収集プロセスによって達成される幅広い概念範囲により、学習した視覚モデルの高い一般性と使いやすさを保証します。あるいは、外部知識による学習は、より構造化された監督のソースを活用し、サンプル効率を提供する有望な方法であると主張します。 K-LITE は、伝達可能なビジュアル システムを構築するために外部の知識を活用するためのシンプルな戦略です。トレーニングでは、テキスト内のエンティティを WordNet とウィクショナリーの知識で強化し、ビジュアルに関する知識を使用する画像表現を学習するための効率的でスケーラブルなアプローチにつながります。概念。評価では、テキストは外部の知識で補強され、学習済みの視覚的概念を参照する (または新しいものを説明する) ために使用され、事前トレーニング済みモデルのゼロショットおよび少数ショット転送を可能にします。 2 つの重要なコンピューター ビジョンの問題、画像分類とオブジェクト検出、それぞれ 20 と 13 の異なる既存のデータセットのベンチマークで K-LITE のパフォーマンスを研究します。提案された知識増強モデルは、既存の方法よりも転移学習のパフォーマンスが大幅に改善されていることを示しています。コードは https://github.com/microsoft/klite で入手できます。
The new generation of state-of-the-art computer vision systems are trained from natural language supervision, ranging from simple object category names to descriptive captions. This form of supervision ensures high generality and usability of the learned visual models, due to the broad concept coverage achieved via large-scale data collection process. Alternatively, we argue that learning with external knowledge is a promising way which leverages a much more structured source of supervision and offers sample efficiency. We propose K-LITE, a simple strategy to leverage external knowledge for building transferable visual systems: In training, it enriches entities in text with WordNet and Wiktionary knowledge, leading to an efficient and scalable approach to learning image representations that uses knowledge about the visual concepts. In evaluation, the text is also augmented with external knowledge and then used to reference learned visual concepts (or describe new ones) to enable zero-shot and few-shot transfer of the pre-trained models. We study the performance of K-LITE on two important computer vision problems, image classification and object detection, benchmarking on 20 and 13 different existing datasets, respectively. The proposed knowledge-augmented models show significant improvement in transfer learning performance over existing methods. Our code is available at https://github.com/microsoft/klite.