過去10年間のインターネットおよびマルチメディアサービスの急速な発展に伴い、膨大な量のユーザー生成およびサービスプロバイダー生成のマルチメディアデータが利用可能になりました。これらのデータは本質的に異種でマルチモーダルであり、処理と分析に大きな課題を課しています。マルチモーダルデータは、テキスト、画像、ビデオ、オーディオなど、さまざまなモダリティからのさまざまなタイプのデータの混合で構成されます。この記事では、マルチメディアのマルチモーダル分析の詳細で包括的な概要を示します。 2つの科学研究の問題、データ駆動型相関表現とマルチメディア分析のための知識に基づく融合を紹介します。 2つの科学的問題に対処するために、1)マルチモーダル相関表現:異なるモダリティにわたるデータのマルチモーダル融合、2)マルチモーダルデータと知識融合:データのマルチモーダル融合ドメインの知識を持つ。より具体的には、データ駆動型相関表現では、マルチモーダルの深層表現、マルチモーダル転送学習、マルチモーダルハッシュなど、3つの重要なカテゴリのメソッドを強調しています。知識に基づく融合では、知識とデータを融合するためのアプローチと、マルチモーダル視覚質問応答、マルチモーダルビデオ要約、マルチモーダル視覚パターンマイニング、マルチモーモーダル推奨。最後に、洞察と今後の研究の方向性を示します。
With the rapid development of Internet and multimedia services in the past decade, a huge amount of user-generated and service provider-generated multimedia data become available. These data are heterogeneous and multi-modal in nature, imposing great challenges for processing and analyzing them. Multi-modal data consist of a mixture of various types of data from different modalities such as texts, images, videos, audios etc. In this article, we present a deep and comprehensive overview for multi-modal analysis in multimedia. We introduce two scientific research problems, data-driven correlational representation and knowledge-guided fusion for multimedia analysis. To address the two scientific problems, we investigate them from the following aspects: 1) multi-modal correlational representation: multi-modal fusion of data across different modalities, and 2) multi-modal data and knowledge fusion: multi-modal fusion of data with domain knowledge. More specifically, on data-driven correlational representation, we highlight three important categories of methods, such as multi-modal deep representation, multi-modal transfer learning, and multi-modal hashing. On knowledge-guided fusion, we discuss the approaches for fusing knowledge with data and four exemplar applications that require various kinds of domain knowledge, including multi-modal visual question answering, multi-modal video summarization, multi-modal visual pattern mining and multi-modal recommendation. Finally, we bring forward our insights and future research directions.