arXiv reaDer
E2-AEN:適応的に拡張可能なネットワークを使用したエンドツーエンドのインクリメンタル学習
E2-AEN: End-to-End Incremental Learning with Adaptively Expandable Network
拡張可能なネットワークは、インクリメンタル学習における壊滅的な忘却の問題に対処する上での利点を示しています。さまざまなタスクがさまざまな構造を必要とする可能性があることを考慮して、最近の方法では、高度なスキルを介してさまざまなタスクに適合した動的構造を設計しています。彼らのルーチンは、最初に拡張可能な構造を検索し、次に新しいタスクでトレーニングすることですが、タスクを複数のトレーニングステージに分割し、最適ではない、または過剰な計算コストにつながります。この論文では、E2-AENという名前のエンドツーエンドのトレーニング可能な適応拡張可能なネットワークを提案します。これは、以前のタスクの精度を低下させることなく、新しいタスクの軽量構造を動的に生成します。具体的には、ネットワークには、以前に学習した表現を新しいタスクに拡張し、タスクの干渉を回避するための一連の強力な機能アダプターが含まれています。これらのアダプタは、拡張された構造をプルーニングできるかどうかを決定する適応ゲートベースのプルーニング戦略を介して制御され、新しいタスクの複雑さに応じてネットワーク構造を動的に変更可能にします。さらに、モデルが限られたパラメーターで識別機能を学習することを奨励するために、新しいスパース性活性化正則化を導入します。 E2-AENはコストを削減し、エンドツーエンドの方法で任意のフィードフォワードアーキテクチャに基づいて構築できます。分類(つまり、CIFARとVDD)と検出(つまり、COCO、VOC、ICCV2021 SSLADチャレンジ)ベンチマークの両方での広範な実験は、提案された方法の有効性を示し、新しい驚くべき結果を達成します。
Expandable networks have demonstrated their advantages in dealing with catastrophic forgetting problem in incremental learning. Considering that different tasks may need different structures, recent methods design dynamic structures adapted to different tasks via sophisticated skills. Their routine is to search expandable structures first and then train on the new tasks, which, however, breaks tasks into multiple training stages, leading to suboptimal or overmuch computational cost. In this paper, we propose an end-to-end trainable adaptively expandable network named E2-AEN, which dynamically generates lightweight structures for new tasks without any accuracy drop in previous tasks. Specifically, the network contains a serial of powerful feature adapters for augmenting the previously learned representations to new tasks, and avoiding task interference. These adapters are controlled via an adaptive gate-based pruning strategy which decides whether the expanded structures can be pruned, making the network structure dynamically changeable according to the complexity of the new tasks. Moreover, we introduce a novel sparsity-activation regularization to encourage the model to learn discriminative features with limited parameters. E2-AEN reduces cost and can be built upon any feed-forward architectures in an end-to-end manner. Extensive experiments on both classification (i.e., CIFAR and VDD) and detection (i.e., COCO, VOC and ICCV2021 SSLAD challenge) benchmarks demonstrate the effectiveness of the proposed method, which achieves the new remarkable results.
updated: Thu Jul 14 2022 09:04:51 GMT+0000 (UTC)
published: Thu Jul 14 2022 09:04:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト