arXiv reaDer
Florence:コンピュータビジョンの新しい基盤モデル
Florence: A New Foundation Model for Computer Vision
私たちの多様でオープンな世界を自動的に視覚的に理解するには、人間の視覚と同様に、特定のタスクのカスタマイズを最小限に抑えて、コンピュータビジョンモデルを適切に一般化する必要があります。多様で大規模なデータセットでトレーニングされ、さまざまなダウンストリームタスクに適応できるコンピュータービジョン基盤モデルは、実際のコンピュータービジョンアプリケーションを解決するというこの使命にとって重要です。 CLIP、ALIGN、Wu Dao 2.0などの既存のビジョンファンデーションモデルは、主に画像とテキスト表現をクロスモーダル共有表現にマッピングすることに重点を置いていますが、新しいコンピュータービジョンファンデーションモデルであるフローレンスを導入して、粗い(シーン)から表現を拡張します。 )からファイン(オブジェクト)、スタティック(画像)からダイナミック(ビデオ)、RGBから複数のモダリティ(キャプション、深度)。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことにより、フローレンスモデルは、分類、検索、オブジェクト検出、VQA、画像キャプション、ビデオ検索、アクション認識などのさまざまなコンピュータビジョンタスクに簡単に適合させることができます。さらに、Florenceは、完全にサンプリングされた微調整、線形プロービング、数ショットの転送、新しい画像やオブジェクトのゼロショット転送など、さまざまなタイプの転送学習で卓越したパフォーマンスを発揮します。これらのプロパティはすべて、ビジョンファンデーションモデルが汎用のビジョンタスクを提供するために重要です。フィレンツェは、44の代表的なベンチマークの大部分で新しい最先端の結果を達成しています。たとえば、COCO微調整でトップ1の精度が83.74、トップ5の精度が97.18、62.4mAPのImageNet-1Kゼロショット分類です。 VQAでは80.36、Kinetics-600では87.8。
Automated visual understanding of our diverse and open world demands computer vision models to generalize well with minimal customization for specific tasks, similar to human vision. Computer vision foundation models, which are trained on diverse, large-scale dataset and can be adapted to a wide range of downstream tasks, are critical for this mission to solve real-world computer vision applications. While existing vision foundation models such as CLIP, ALIGN, and Wu Dao 2.0 focus mainly on mapping images and textual representations to a cross-modal shared representation, we introduce a new computer vision foundation model, Florence, to expand the representations from coarse (scene) to fine (object), from static (images) to dynamic (videos), and from RGB to multiple modalities (caption, depth). By incorporating universal visual-language representations from Web-scale image-text data, our Florence model can be easily adapted for various computer vision tasks, such as classification, retrieval, object detection, VQA, image caption, video retrieval and action recognition. Moreover, Florence demonstrates outstanding performance in many types of transfer learning: fully sampled fine-tuning, linear probing, few-shot transfer and zero-shot transfer for novel images and objects. All of these properties are critical for our vision foundation model to serve general purpose vision tasks. Florence achieves new state-of-the-art results in majority of 44 representative benchmarks, e.g., ImageNet-1K zero-shot classification with top-1 accuracy of 83.74 and the top-5 accuracy of 97.18, 62.4 mAP on COCO fine tuning, 80.36 on VQA, and 87.8 on Kinetics-600.
updated: Mon Nov 22 2021 18:59:55 GMT+0000 (UTC)
published: Mon Nov 22 2021 18:59:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト