arXiv reaDer
DyTox:DYnamic TOkeneXpansionを使用した継続的な学習のためのトランスフォーマー
DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion
ディープネットワークアーキテクチャは、前のタスクを忘れることなく、新しいタスクを継続的に学習するのに苦労しています。最近の傾向は、パラメータの拡張に基づく動的アーキテクチャが、継続的な学習における壊滅的な忘却を効率的に減らすことができることを示しています。ただし、既存のアプローチでは、テスト時にタスクIDが必要になることが多く、増え続けるパラメーターのバランスをとるために複雑な調整が必要であり、タスク間で情報をほとんど共有しません。その結果、大きなオーバーヘッドなしに多数のタスクに拡張するのに苦労しています。本論文では、専用のエンコーダ/デコーダフレームワークに基づくトランスアーキテクチャを提案します。重要なのは、エンコーダーとデコーダーがすべてのタスクで共有されていることです。特別なトークンの動的な拡張を通じて、デコーダーネットワークの各フォワードをタスク分散に特化します。私たちの戦略は、パラメータ拡張の厳密な制御により、メモリと時間のオーバーヘッドを無視できる一方で、多数のタスクに拡張できます。さらに、この効率的な戦略では、ネットワークの拡張を制御するためのハイパーパラメータ調整は必要ありません。私たちのモデルは、同時動的フレームワークよりも少ないパラメーターで、CIFAR100と大規模なImageNet100およびImageNet1000での最先端のパフォーマンスで優れた結果を達成します。
Deep network architectures struggle to continually learn new tasks without forgetting the previous tasks. A recent trend indicates that dynamic architectures based on an expansion of the parameters can reduce catastrophic forgetting efficiently in continual learning. However, existing approaches often require a task identifier at test-time, need complex tuning to balance the growing number of parameters, and barely share any information across tasks. As a result, they struggle to scale to a large number of tasks without significant overhead. In this paper, we propose a transformer architecture based on a dedicated encoder/decoder framework. Critically, the encoder and decoder are shared among all tasks. Through a dynamic expansion of special tokens, we specialize each forward of our decoder network on a task distribution. Our strategy scales to a large number of tasks while having negligible memory and time overheads due to strict control of the parameters expansion. Moreover, this efficient strategy doesn't need any hyperparameter tuning to control the network's expansion. Our model reaches excellent results on CIFAR100 and state-of-the-art performances on the large-scale ImageNet100 and ImageNet1000 while having less parameters than concurrent dynamic frameworks.
updated: Sun Mar 27 2022 14:24:58 GMT+0000 (UTC)
published: Mon Nov 22 2021 16:29:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト