GPT-4 のように、Large Visual Language Model (LVLM) をゼロからトレーニングするには、リソースを大量に消費します。私たちの論文では、LVLM の画像理解の精度を向上させることを目的として、大規模言語モデル (LLM) 用のプレイプラグイン対話型認識ネットワークである LMEye と呼ばれる代替方法を提案しています。視覚情報を LLM に注入する以前の方法では、静的な視覚マッピング ネットワークが利用されていましたが、LLM と視覚情報との間の動的な相互作用が欠けていました。 LMEye は、LLM が人間の指示に沿った視覚情報を取り込めるようにすることで、この問題に対処します。具体的には、LMEye ネットワークは、画像の基本的な認識を LLM に提供する静的視覚マッピング ネットワークで構成されています。次に、LLM からの要求の取得、画像特徴の分解、およびインターリーブされた情報の LLM への送信をそれぞれ担当する追加の線形層も含まれます。このように、LLM は、人間の指示を理解し、それを対話型認識ネットワークに送信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する役割を果たします。マルチモーダルな質問応答および推論タスクに関する広範な実験を通じて LMEye を評価し、以前の方法と比較して、マルチモーダル タスクでの LLM のゼロ ショット パフォーマンスが大幅に向上することを実証しました。
Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is resource-intensive. Our paper proposes an alternative method called LMEye, a play-plug-in Interactive Perception Network for Large Language Models (LLMs), aiming to improve the accuracy of image understanding for the LVLM. Previous methods that infuse visual information into LLMs utilize a static visual mapping network, but lack dynamic interaction between the LLMs and visual information. LMEye addresses this issue by allowing the LLM to incorporate the visual information that aligned with human instruction. Specifically, the LMEye network consists of a static visual mapping network to provide the basic perception of an image to LLMs. Then, it also contains additional linear layers responsible for acquiring requests from LLMs, decomposing image features, and transmitting the interleaved information to LLMs, respectively. In this way, LLMs act to be in charge of understanding human instructions, sending it to the interactive perception network, and generating the response based on the interleaved multimodal information. We evaluate LMEye through extensive experiments on multimodal question answering and reasoning tasks, demonstrating that it significantly improves the zero-shot performance of LLMs on multimodal tasks compared to previous methods.