強力な大規模言語モデル (LLM) に基づいた、最近の生成マルチモーダル大規模言語モデル (MLLM) は、極めて重要な研究分野として注目を集めており、理解と生成の両方において優れた能力を示しています。この研究では、SEED-Bench というベンチマークを導入することにより、生成モデルの包括的な評価に向けた準備段階として、MLLM における生成的理解の評価に取り組みます。 SEED-Bench は、正確な人による注釈 (既存のベンチマークより 6 倍大きい) を備えた 19,000 の多肢選択式の質問で構成されており、画像とビデオの両方のモダリティの理解を含む 12 の評価次元に及びます。当社は、自動フィルタリングと手動検証プロセスの両方を統合して、特定の評価次元を対象とする多肢選択式の質問を生成するための高度なパイプラインを開発します。人間によるアノテーションから派生したグラウンドトゥルース オプションを備えた多肢選択式の質問により、モデルのパフォーマンスを客観的かつ効率的に評価できるため、評価中に人間や GPT の介入が不要になります。さらに、空間的理解と時間的理解の両方をカバーしながら、12 次元すべてにわたって 18 のモデルのパフォーマンスを評価します。評価結果を通じて既存のMLLMの限界を明らかにすることで、SEED-Benchが今後の研究を動機付ける洞察を提供することを目指しています。私たちはリーダーボードを立ち上げ、継続的に維持して、コミュニティがモデルの機能を評価および調査するためのプラットフォームを提供します。
Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.