arXiv reaDer
視覚-言語インテリジェンス:タスク、表現学習、および大規模モデル
Vision-Language Intelligence: Tasks, Representation Learning, and Large Models
この論文は、時間の観点からの視覚言語(VL)インテリジェンスの包括的な調査を提示します。この調査は、コンピュータービジョンと自然言語処理の両方における目覚ましい進歩と、単一のモダリティ処理から複数のモダリティの理解へと移行する最近の傾向に触発されています。この分野での開発を3つの期間に要約します。つまり、タスク固有の方法、視覚言語の事前トレーニング(VLP)方法、および大規模な弱くラベル付けされたデータによって強化されたより大きなモデルです。まず、いくつかの一般的なVLタスクを例として取り上げ、タスク固有のメソッドの開発を紹介します。次に、VLP手法に焦点を当て、モデル構造とトレーニング手法の主要コンポーネントを包括的に確認します。その後、最近の作業で大規模な生の画像テキストデータを利用して、ゼロまたは少数のショット学習タスクでより一般化する言語に合わせた視覚的表現を学習する方法を示します。最後に、モダリティ協力、統一された表現、および知識の組み込みに向けたいくつかの潜在的な将来の傾向について説明します。このレビューは、AIとMLの研究者や実践者、特にコンピュータービジョンと自然言語処理に関心のある人にとって役立つと信じています。
This paper presents a comprehensive survey of vision-language (VL) intelligence from the perspective of time. This survey is inspired by the remarkable progress in both computer vision and natural language processing, and recent trends shifting from single modality processing to multiple modality comprehension. We summarize the development in this field into three time periods, namely task-specific methods, vision-language pre-training (VLP) methods, and larger models empowered by large-scale weakly-labeled data. We first take some common VL tasks as examples to introduce the development of task-specific methods. Then we focus on VLP methods and comprehensively review key components of the model structures and training methods. After that, we show how recent work utilizes large-scale raw image-text data to learn language-aligned visual representations that generalize better on zero or few shot learning tasks. Finally, we discuss some potential future trends towards modality cooperation, unified representation, and knowledge incorporation. We believe that this review will be of help for researchers and practitioners of AI and ML, especially those interested in computer vision and natural language processing.
updated: Thu Mar 03 2022 18:54:59 GMT+0000 (UTC)
published: Thu Mar 03 2022 18:54:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト