arXiv reaDer
OFASys: ジェネラリスト モデルを構築するためのマルチモーダル マルチタスク学習システム
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models
単一のモデル内でタスクにとらわれない方法で多様なマルチモーダル タスクを実行できるジェネラリスト モデルが最近調査されています。願わくば、汎用 AI にアプローチするための代替手段として、既存のジェネラリスト モデルはまだ初期段階にあり、モダリティとタスクの範囲は限られています。マルチモーダル タスク スケーリングを強化し、この一連の研究をスピードアップするために、マルチモーダル命令と呼ばれる宣言型タスク インターフェイスの上に構築されたジェネラリスト モデル学習システム OFASys をリリースします。 OFASys の中核にあるのは、マルチモーダル タスク表現を基礎となるモデル実装から切り離すという考えです。 OFASys では、複数のモダリティを含むタスクを 1 行のコードでも宣言的に定義できます。システムは、トレーニングと推論のために、このような指示からタスク プランを自動的に生成します。また、多様なマルチモーダル ワークロードのマルチタスク トレーニングも容易になります。出発点として、7 つの異なるモダリティのプリセットと OFASys の 23 の非常に多様なサンプル タスクを提供します。これを使用して、テキスト、画像、音声、ビデオ、そしてモーションデータ。単一の OFA+ モデルは、15 のタスク微調整モデルのわずか 16% のパラメーターで平均 95% のパフォーマンスを達成し、OFASys によって提供されるマルチモーダル タスク スケーリングのパフォーマンスの信頼性を示しています。 https://github.com/OFA-Sys/OFASys で入手可能
Generalist models, which are capable of performing diverse multi-modal tasks in a task-agnostic way within a single model, have been explored recently. Being, hopefully, an alternative to approaching general-purpose AI, existing generalist models are still at an early stage, where modality and task coverage is limited. To empower multi-modal task-scaling and speed up this line of research, we release a generalist model learning system, OFASys, built on top of a declarative task interface named multi-modal instruction. At the core of OFASys is the idea of decoupling multi-modal task representations from the underlying model implementations. In OFASys, a task involving multiple modalities can be defined declaratively even with just a single line of code. The system automatically generates task plans from such instructions for training and inference. It also facilitates multi-task training for diverse multi-modal workloads. As a starting point, we provide presets of 7 different modalities and 23 highly-diverse example tasks in OFASys, with which we also develop a first-in-kind, single model, OFA+, that can handle text, image, speech, video, and motion data. The single OFA+ model achieves 95% performance in average with only 16% parameters of 15 task-finetuned models, showcasing the performance reliability of multi-modal task-scaling provided by OFASys. Available at https://github.com/OFA-Sys/OFASys
updated: Thu Dec 08 2022 17:07:09 GMT+0000 (UTC)
published: Thu Dec 08 2022 17:07:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト