arXiv reaDer
CLiMB:ビジョンと言語のタスクのための継続的な学習ベンチマーク
CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks
現在の最先端のビジョンと言語モデルは、タスクが到着したときに継続的に学習する(CL)タスクの課題を見落としながら、個別にまたはマルチタスク設定でタスクに対して評価されます。既存のCLベンチマークは、タスクの適応と「壊滅的な忘却」の軽減に関する研究を容易にしましたが、ビジョンのみのタスクと言語のみのタスクに限定されています。 CL設定でマルチモーダルタスクを学習するという課題を研究し、上流の継続学習が新しいマルチモーダルおよびユニモーダルタスクにどのように迅速に一般化できるかを体系的に評価するためのベンチマークであるCLiMBを紹介します。 CLiMBには、いくつかのCLアルゴリズムの実装と、マルチモーダルタスクとユニモーダルタスクの両方に展開できる変更されたVision-Language Transformer(ViLT)モデルが含まれています。一般的なCLメソッドは、マルチモーダルタスク学習中の忘却を軽減するのに役立ちますが、タスク間の知識の伝達はできません。 CLiMBは、この困難なマルチモーダル設定のための新しいクラスのCLアルゴリズムの研究を容易にすることを想定しています。
Current state-of-the-art vision-and-language models are evaluated on tasks either individually or in a multi-task setting, overlooking the challenges of continually learning (CL) tasks as they arrive. Existing CL benchmarks have facilitated research on task adaptation and mitigating "catastrophic forgetting", but are limited to vision-only and language-only tasks. We present CLiMB, a benchmark to study the challenge of learning multimodal tasks in a CL setting, and to systematically evaluate how upstream continual learning can rapidly generalize to new multimodal and unimodal tasks. CLiMB includes implementations of several CL algorithms and a modified Vision-Language Transformer (ViLT) model that can be deployed on both multimodal and unimodal tasks. We find that common CL methods can help mitigate forgetting during multimodal task learning, but do not enable cross-task knowledge transfer. We envision that CLiMB will facilitate research on a new class of CL algorithms for this challenging multimodal setting.
updated: Sat Jun 18 2022 00:16:37 GMT+0000 (UTC)
published: Sat Jun 18 2022 00:16:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト