大規模言語モデル (LLM) は、答えを推論する論理的根拠として中間推論チェーンを生成するように促す思考チェーン (CoT) を活用することにより、複雑な推論で印象的なパフォーマンスを示しています。ただし、既存の CoT 研究は言語モダリティに焦点を当てています。言語 (テキスト) と視覚 (画像) のモダリティを、理論的根拠の生成と回答の推論を分離する 2 段階のフレームワークに組み込む Multimodal-CoT を提案します。このようにして、回答の推論は、マルチモーダル情報に基づいて生成された、より優れた論理的根拠を活用できます。 Multimodal-CoT を使用すると、10 億パラメーター未満のモデルは、ScienceQA ベンチマークで以前の最先端の LLM (GPT-3.5) を 16% (75.17%->91.68%) 上回っており、さらには人間のパフォーマンスを上回っています。コードは、https://github.com/amazon-science/mm-cot で公開されています。
Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer. However, existing CoT studies have focused on the language modality. We propose Multimodal-CoT that incorporates language (text) and vision (images) modalities into a two-stage framework that separates rationale generation and answer inference. In this way, answer inference can leverage better generated rationales that are based on multimodal information. With Multimodal-CoT, our model under 1 billion parameters outperforms the previous state-of-the-art LLM (GPT-3.5) by 16% (75.17%->91.68%) on the ScienceQA benchmark and even surpasses human performance. Code is publicly available available at https://github.com/amazon-science/mm-cot.