自然言語処理モデルを評価するためのさまざまなベンチマークが存在するにもかかわらず、大規模言語モデル (LLM) の一般知能を評価するには、人間の試験の方がより適した手段であると私たちは主張します。LLM は本質的に、言語理解などのより広範囲の能力を要求するからです。専門分野の知識と問題解決スキル。この目的を達成するために、多言語、マルチモーダル、およびマルチレベルのコンテキストで LLM を評価するための、実際の公式人間試験問題をソースとする新しいベンチマークである M3Exam を導入します。 M3Exam には 3 つの独自の特徴があります。(1) 多言語対応。強力な多言語能力と文化的知識を必要とする複数の国からの出題を網羅しています。 (2) 多峰性。モデルの多峰性理解能力をテストするための多くの試験問題の多峰性の性質を説明します。 (3) さまざまなレベルでのモデルの習熟度を包括的に評価するために、3 つの重要な教育期間の試験を特徴とするマルチレベル構造。 M3Exam には合計 9 つの多様な言語で 3 つの教育レベルの 12,317 の問題が含まれており、問題の約 23% は問題を解決するために画像の処理が必要です。 M3Exam で最高のパフォーマンスを誇る LLM のパフォーマンスを評価したところ、GPT-4 を含む現在のモデルは、特に低リソース言語や非ラテン文字言語での多言語テキストに依然として苦戦していることがわかりました。マルチモーダル LLM は、複雑なマルチモーダルな質問でもパフォーマンスが低くなります。 M3Exam は、LLM の多言語およびマルチモーダルな能力を検査し、その発達を追跡することにより、LLM を総合的に評価するための貴重なリソースになり得ると私たちは信じています。データと評価コードは https://github.com/DAMO-NLP-SG/M3Exam で入手できます。
Despite the existence of various benchmarks for evaluating natural language processing models, we argue that human exams are a more suitable means of evaluating general intelligence for large language models (LLMs), as they inherently demand a much wider range of abilities such as language understanding, domain knowledge, and problem-solving skills. To this end, we introduce M3Exam, a novel benchmark sourced from real and official human exam questions for evaluating LLMs in a multilingual, multimodal, and multilevel context. M3Exam exhibits three unique characteristics: (1) multilingualism, encompassing questions from multiple countries that require strong multilingual proficiency and cultural knowledge; (2) multimodality, accounting for the multimodal nature of many exam questions to test the model's multimodal understanding capability; and (3) multilevel structure, featuring exams from three critical educational periods to comprehensively assess a model's proficiency at different levels. In total, M3Exam contains 12,317 questions in 9 diverse languages with three educational levels, where about 23% of the questions require processing images for successful solving. We assess the performance of top-performing LLMs on M3Exam and find that current models, including GPT-4, still struggle with multilingual text, particularly in low-resource and non-Latin script languages. Multimodal LLMs also perform poorly with complex multimodal questions. We believe that M3Exam can be a valuable resource for comprehensively evaluating LLMs by examining their multilingual and multimodal abilities and tracking their development. Data and evaluation code is available at https://github.com/DAMO-NLP-SG/M3Exam.