arXiv reaDer
ビジョンと言語研究の統合の傾向:タスク、データセット、および方法の調査
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods
人工知能(AI)とそのアプリケーションへの関心は、過去数年間で前例のない成長を遂げています。この成功は、機械学習、コンピュータービジョン、自然言語処理などのAIのサブフィールドで行われた進歩に部分的に起因している可能性があります。これらの分野での成長の多くは、人工ニューラルネットワークを使用する機械学習のサブエリアであるディープラーニングによって可能になりました。これにより、視覚と言語の統合に大きな関心が寄せられています。この調査では、問題の定式化、方法、既存のデータセット、評価方法について話し合うことにより、言語と視覚を統合する10の主要なタスクに焦点を当て、得られた結果を対応する最先端の方法と比較します。私たちの取り組みは、タスク固有であるか、1つのタイプのビジュアルコンテンツ(画像またはビデオ)のみに集中する以前の調査を超えています。さらに、この調査が既存の課題に対処し、新しいアプリケーションを構築するための革新的な考えやアイデアを刺激することを期待して、この研究分野におけるいくつかの潜在的な将来の方向性も提供します。
Interest in Artificial Intelligence (AI) and its applications has seen unprecedented growth in the last few years. This success can be partly attributed to the advancements made in the sub-fields of AI such as machine learning, computer vision, and natural language processing. Much of the growth in these fields has been made possible with deep learning, a sub-area of machine learning that uses artificial neural networks. This has created significant interest in the integration of vision and language. In this survey, we focus on ten prominent tasks that integrate language and vision by discussing their problem formulation, methods, existing datasets, evaluation measures, and compare the results obtained with corresponding state-of-the-art methods. Our efforts go beyond earlier surveys which are either task-specific or concentrate only on one type of visual content, i.e., image or video. Furthermore, we also provide some potential future directions in this field of research with an anticipation that this survey stimulates innovative thoughts and ideas to address the existing challenges and build new applications.
updated: Fri Dec 31 2021 20:40:20 GMT+0000 (UTC)
published: Mon Jul 22 2019 14:53:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト