Musketeer (All for One, and One for All): A Generalist Vision-Language Model with Task Explanation Prompts

Zhaoyang Zhang; Yantao Shen; Kunyu Shi; Zhaowei Cai; Jun Fang; Siqi Deng; Hao Yang; Davide Modolo; Zhuowen Tu; Stefano Soatto

Musketeer (All for One、および One for All): タスクの説明プロンプトを備えたジェネラリストの視覚言語モデル

私たちは、パラメータがすべてのタスク (オールフォーワン) で共同トレーニングされ、複数のタスク (ワンフォーオール) で完全に共有されるシーケンスツーシーケンスの視覚言語モデルを提示します。その結果、Musketeer と名付けた単一のモデルが得られます。異種タスク間の知識の統合は、タスク説明プロンプト (TEP) と呼ばれる新しい機能によって可能になります。 TEP はタスク間の干渉を軽減し、モデルがタスクの共有構造に集中できるようにします。 Musketeer は、単一のモデルを使用して、単一のタスクでトレーニングされた強力なベースラインと同等以上の結果を、複数のタスクにわたってほぼ均一に達成します。

We present a sequence-to-sequence vision-language model whose parameters are jointly trained on all tasks (all for one) and fully shared among multiple tasks (one for all), resulting in a single model which we named Musketeer. The integration of knowledge across heterogeneous tasks is enabled by a novel feature called Task Explanation Prompt (TEP). TEP reduces interference among tasks, allowing the model to focus on their shared structure. With a single model, Musketeer achieves results comparable to or better than strong baselines trained on single tasks, almost uniformly across multiple tasks.

updated: Thu May 11 2023 17:57:49 GMT+0000 (UTC)

published: Thu May 11 2023 17:57:49 GMT+0000 (UTC)

arXiv

参考文献 (このサイトで利用可能なもの) / References (only if available on this site)

被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)

Amazon.co.jpアソシエイト