arXiv reaDer
マルチモーダル大規模言語モデルに関する調査
A Survey on Multimodal Large Language Models
マルチモーダル大規模言語モデル (MLLM) は、最近新たに注目を集めている研究分野であり、強力な大規模言語モデル (LLM) をマルチモーダル タスクを実行する頭脳として使用します。画像に基づいたストーリーの作成や OCR を使用しない数学的推論など、MLLM の驚くべき新機能は、従来の方法ではまれであり、汎用人工知能への潜在的な道筋を示唆しています。この論文では、MLLM の最近の進歩を追跡し、要約することを目的としています。まず最初に、MLLM の定式化を示し、それに関連する概念を説明します。次に、マルチモーダル命令チューニング (M-IT)、マルチモーダル インコンテキスト学習 (M-ICL)、マルチモーダル思考連鎖 (M-CoT)、LLM 支援視覚推論 (LAVR) などの主要な技術とアプリケーションについて説明します。 。最後に、既存の課題について議論し、有望な研究の方向性を指摘します。 MLLM の時代はまだ始まったばかりであるという事実を踏まえ、私たちはこの調査を継続的に更新し、この調査がさらなる研究のきっかけとなることを願っています。最新の論文を集めた関連する GitHub リンクは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models から入手できます。
Multimodal Large Language Model (MLLM) recently has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal tasks. The surprising emergent capabilities of MLLM, such as writing stories based on images and OCR-free math reasoning, are rare in traditional methods, suggesting a potential path to artificial general intelligence. In this paper, we aim to trace and summarize the recent progress of MLLM. First of all, we present the formulation of MLLM and delineate its related concepts. Then, we discuss the key techniques and applications, including Multimodal Instruction Tuning (M-IT), Multimodal In-Context Learning (M-ICL), Multimodal Chain of Thought (M-CoT), and LLM-Aided Visual Reasoning (LAVR). Finally, we discuss existing challenges and point out promising research directions. In light of the fact that the era of MLLM has only just begun, we will keep updating this survey and hope it can inspire more research. An associated GitHub link collecting the latest papers is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
updated: Fri Jun 23 2023 15:21:52 GMT+0000 (UTC)
published: Fri Jun 23 2023 15:21:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト