arXiv reaDer
多くの頭と 1 つの脳: 融合脳 -- 競争と単一のマルチモーダル マルチタスク アーキテクチャ
Many Heads but One Brain: Fusion Brain -- a Competition and a Single Multimodal Multitask Architecture
AI コミュニティの現在のトレンドをサポートするために、Fusion Brain と呼ばれる AI Journey 2021 チャレンジを提示します。これは、さまざまなモダリティ (この場合は画像、テキスト、コード) を処理し、視覚と言語のための複数のタスク。 Fusion Brain Challenge は、次の特定のタスクを組み合わせたものです: Code2code 翻訳、手書きテキスト認識、ゼロショット オブジェクト検出、視覚的質問応答。参加者の提出物をテストするために、各タスクのデータセットを作成しました。さらに、94,128 組の画像とテキストからなる、英語とロシア語の両方の新しい手書きデータセットを収集して公開しました。また、マルチモーダルおよびマルチタスク アーキテクチャも提案します。ベースライン ソリューションの中心には、凍結された基盤モデルがあり、シングルタスク モードとともにフュージョン モードでトレーニングされています。提案された Fusion アプローチは、タスク固有のアプローチと比較して、競争力があり、エネルギー効率が高いことが証明されています。
Supporting the current trend in the AI community, we present the AI Journey 2021 Challenge called Fusion Brain, the first competition which is targeted to make the universal architecture which could process different modalities (in this case, images, texts, and code) and solve multiple tasks for vision and language. The Fusion Brain Challenge combines the following specific tasks: Code2code Translation, Handwritten Text recognition, Zero-shot Object Detection, and Visual Question Answering. We have created datasets for each task to test the participants' submissions on it. Moreover, we have collected and made publicly available a new handwritten dataset in both English and Russian, which consists of 94,128 pairs of images and texts. We also propose a multimodal and multitask architecture - a baseline solution, in the center of which is a frozen foundation model and which has been trained in Fusion mode along with Single-task mode. The proposed Fusion approach proves to be competitive and more energy-efficient compared to the task-specific one.
updated: Wed Dec 28 2022 05:23:43 GMT+0000 (UTC)
published: Mon Nov 22 2021 03:46:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト