最近、画像と言語を共同理解するためにいくつかのマルチモーダル モデルが開発され、高度なラージ言語モデル (LLM) を利用することで優れたチャット能力が実証されました。このようなモデルを開発するプロセスは単純ですが効果的です。これには、ビジョン エンコーダと言語モデルのセマンティクスを調整するための適応モジュールの事前トレーニングと、その後の命令追従データの微調整が含まれます。しかし、このパイプラインは画像と言語の理解において成功を収めているにもかかわらず、ビデオと言語の共同理解におけるその有効性は広く調査されていません。この論文では、一般的なフレームワーク内でビデオ、画像、および言語を認識できる新しいマルチモーダル基盤モデルを開発することを目的としています。この目標を達成するために、Valley: 大規模言語モデルの機能が強化されたビデオ アシスタントを導入します。具体的には、私たちが提案する Valley モデルは、ビデオ、画像、言語モダリティを橋渡しする単純な投影モジュールを使用して設計されており、さらに多言語 LLM と統合されています。また、マルチソースのビジョンとテキストのペアを収集し、時空間プーリング戦略を採用して、事前トレーニング用のビデオと画像入力の統一されたビジョンエンコーディングを取得します。さらに、マルチショットキャプション、長いビデオ説明、アクション認識、因果関係推論などを含む、マルチタスクの指示に従うビデオデータを生成します。指示に従うデータを取得するために、私たちは、タスク指向のさまざまなラウンドの会話を設計します。人間とビデオ。ChatGPT によって促進されます。定性的な例は、私たちが提案したモデルが、複雑なビデオ理解シナリオを容易にする非常に効果的な多言語ビデオアシスタントとして機能する可能性があることを示しています。コード、データ、モデルは https://github.com/RupertLuo/Valley で入手できます。
Recently, several multi-modal models have been developed for joint image and language understanding, which have demonstrated impressive chat abilities by utilizing advanced large language models (LLMs). The process of developing such models is straightforward yet effective. It involves pre-training an adaptation module to align the semantics of the vision encoder and language model, followed by fine-tuning on the instruction-following data. However, despite the success of this pipeline in image and language understanding, its effectiveness in joint video and language understanding has not been widely explored. In this paper, we aim to develop a novel multi-modal foundation model capable of perceiving video, image, and language within a general framework. To achieve this goal, we introduce Valley: Video Assistant with Large Language model Enhanced ability. Specifically, our proposed Valley model is designed with a simple projection module that bridges video, image, and language modalities, and is further unified with a multi-lingual LLM. We also collect multi-source vision-text pairs and adopt a spatio-temporal pooling strategy to obtain a unified vision encoding of video and image input for pre-training. Furthermore, we generate multi-task instruction-following video data, including multi-shot captions, long video descriptions, action recognition, causal relationship inference, etc. To obtain the instruction-following data, we design diverse rounds of task-oriented conversations between humans and videos, facilitated by ChatGPT. Qualitative examples demonstrate that our proposed model has the potential to function as a highly effective multilingual video assistant that can make complex video understanding scenarios easy. Code, data, and models will be available at https://github.com/RupertLuo/Valley.