arXiv reaDer
マルチモーダルインテリジェンス:表現学習、情報融合、およびアプリケーション
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
 ディープラーニング手法は、2010年以降、音声認識、画像認識、自然言語処理に革命をもたらしました。これらの各タスクには、入力信号に単一のモダリティが含まれます。ただし、人工知能分野の多くのアプリケーションには、複数のモダリティが含まれます。したがって、複数のモダリティにわたるモデリングと学習のより困難で複雑な問題を研究することは、大きな関心事です。このホワイトペーパーでは、マルチモーダルインテリジェンスの利用可能なモデルと学習方法のテクニカルレビューを提供します。このレビューの主な焦点は、ビジョンと自然言語モダリティの組み合わせです。これは、コンピュータービジョンと自然言語処理の研究コミュニティの両方で重要なトピックになっています。このレビューでは、マルチモーダル表現の学習、さまざまなレベルでのマルチモーダル信号の融合、マルチモーダルアプリケーションの3つの視点から、マルチモーダルディープラーニングに関する最近の研究を包括的に分析します。マルチモーダル表現の学習に関して、マルチモーダル信号を単一のベクトル空間に統合し、それによってクロスモダリティ信号処理を可能にする、埋め込みの主要な概念を確認します。また、一般的なダウンストリームタスク用に構築および学習された多くのタイプの埋め込みのプロパティを確認します。マルチモーダル融合に関して、このレビューでは、特定のタスクの単一モード信号の表現を統合するための特別なアーキテクチャに焦点を当てています。アプリケーションに関しては、画像からテキストへのキャプションの生成、テキストからイメージへの生成、視覚的な質問応答など、現在の文献で幅広い関心のある選択された領域がカバーされています。このレビューは、関連するコミュニティのマルチモーダルインテリジェンスの新たな分野での将来の研究を促進すると考えています。
Deep learning methods have revolutionized speech recognition, image recognition, and natural language processing since 2010. Each of these tasks involves a single modality in their input signals. However, many applications in the artificial intelligence field involve multiple modalities. Therefore, it is of broad interest to study the more difficult and complex problem of modeling and learning across multiple modalities. In this paper, we provide a technical review of available models and learning methods for multimodal intelligence. The main focus of this review is the combination of vision and natural language modalities, which has become an important topic in both the computer vision and natural language processing research communities. This review provides a comprehensive analysis of recent works on multimodal deep learning from three perspectives: learning multimodal representations, fusing multimodal signals at various levels, and multimodal applications. Regarding multimodal representation learning, we review the key concepts of embedding, which unify multimodal signals into a single vector space and thereby enable cross-modality signal processing. We also review the properties of many types of embeddings that are constructed and learned for general downstream tasks. Regarding multimodal fusion, this review focuses on special architectures for the integration of representations of unimodal signals for a particular task. Regarding applications, selected areas of a broad interest in the current literature are covered, including image-to-text caption generation, text-to-image generation, and visual question answering. We believe that this review will facilitate future studies in the emerging field of multimodal intelligence for related communities.
updated: Fri Apr 10 2020 09:16:13 GMT+0000 (UTC)
published: Sun Nov 10 2019 18:58:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト