大規模言語モデル (LLM) は、新たな推論能力により、さまざまな自然言語処理タスクの解決において目覚ましい進歩を遂げています。ただし、LLM には、(Web 上またはタスク固有のナレッジ ベースに保存されている) 最新情報にアクセスしたり、外部ツールを使用したり、正確な数学的および論理的推論を実行したりすることができないため、固有の制限があります。この論文では、合成推論のためのプラグアンドプレイ モジュールで LLM を強化することで、これらの制限を軽減する AI システムである Chameleon を紹介します。 Chameleon は、複雑な推論タスクを実行するためのさまざまなツール (LLM、既製のビジョン モデル、Web 検索エンジン、Python 関数、ヒューリスティックベースのモジュールなど) を構成することによってプログラムを合成します。 Chameleon の中心となるのは、最終応答を生成するために実行する一連のツールを組み立てる LLM ベースのプランナーです。 ScienceQA と TabMWP という 2 つのマルチモーダルな知識集約型推論タスクにおける Chameleon の有効性を紹介します。 GPT-4 を搭載した Chameleon は、ScienceQA で全体の精度 86.54% を達成し、公表されている最高の数ショット結果を 11.37% 向上させました。 TabMWP では、GPT-4 を搭載した Chameleon により精度が 17.0% 向上し、最先端の精度が 98.78% に引き上げられました。私たちの分析は、ChatGPT を利用したプランナーと比較して、GPT-4 を利用したプランナーが、命令から潜在的な制約を推測することにより、より一貫性のある合理的なツール選択を示していることも示しています。
Large language models (LLMs) have achieved remarkable progress in solving various natural language processing tasks due to emergent reasoning abilities. However, LLMs have inherent limitations as they are incapable of accessing up-to-date information (stored on the Web or in task-specific knowledge bases), using external tools, and performing precise mathematical and logical reasoning. In this paper, we present Chameleon, an AI system that mitigates these limitations by augmenting LLMs with plug-and-play modules for compositional reasoning. Chameleon synthesizes programs by composing various tools (e.g., LLMs, off-the-shelf vision models, web search engines, Python functions, and heuristic-based modules) for accomplishing complex reasoning tasks. At the heart of Chameleon is an LLM-based planner that assembles a sequence of tools to execute to generate the final response. We showcase the effectiveness of Chameleon on two multi-modal knowledge-intensive reasoning tasks: ScienceQA and TabMWP. Chameleon, powered by GPT-4, achieves an 86.54% overall accuracy on ScienceQA, improving the best published few-shot result by 11.37%. On TabMWP, GPT-4-powered Chameleon improves the accuracy by 17.0%, lifting the state of the art to 98.78%. Our analysis also shows that the GPT-4-powered planner exhibits more consistent and rational tool selection via inferring potential constraints from instructions, compared to a ChatGPT-powered planner.