VISPROG は、自然言語の指示を与えられた複雑で構成的な視覚タスクを解決するための神経記号的アプローチです。 VISPROG は、タスク固有のトレーニングの必要性を回避します。代わりに、大規模な言語モデルのコンテキスト内学習機能を使用して Python のようなモジュラー プログラムを生成し、それを実行して、ソリューションと包括的で解釈可能な理論的根拠の両方を取得します。生成されたプログラムの各行は、既製のコンピューター ビジョン モデル、画像処理ルーチン、または Python 関数のいずれかを呼び出して、プログラムの後続の部分で使用される可能性のある中間出力を生成します。構成的視覚的質問応答、画像ペアのゼロショット推論、事実知識オブジェクトのタグ付け、および言語ガイド付き画像編集の 4 つの多様なタスクで VISPROG の柔軟性を実証します。 VISPROG のようなニューロ シンボリック アプローチは、AI システムの範囲を簡単かつ効果的に拡張して、人々が実行したい複雑なタスクのロングテールに対応するためのエキサイティングな手段であると私たちは信じています。
We present VISPROG, a neuro-symbolic approach to solving complex and compositional visual tasks given natural language instructions. VISPROG avoids the need for any task-specific training. Instead, it uses the in-context learning ability of large language models to generate python-like modular programs, which are then executed to get both the solution and a comprehensive and interpretable rationale. Each line of the generated program may invoke one of several off-the-shelf computer vision models, image processing routines, or python functions to produce intermediate outputs that may be consumed by subsequent parts of the program. We demonstrate the flexibility of VISPROG on 4 diverse tasks - compositional visual question answering, zero-shot reasoning on image pairs, factual knowledge object tagging, and language-guided image editing. We believe neuro-symbolic approaches like VISPROG are an exciting avenue to easily and effectively expand the scope of AI systems to serve the long tail of complex tasks that people may wish to perform.