arXiv reaDer
SpaceNet: Make Free Space For Continual Learning
継続的学習(CL)パラダイムは、ニューラルネットワークが連続してタスクを継続的に学習できるようにすることを目的としています。この学習パラダイムの基本的な課題は、モデルが新しいタスク用に最適化されている場合、特にデータにアクセスできない場合に、以前に学習したタスクを壊滅的に破壊することです。現在の建築ベースの方法は、壊滅的な忘却の問題を軽減することを目的としていますが、モデルの容量を拡張することを犠牲にしています。正則化ベースの方法は、固定モデル容量を維持します。ただし、以前の研究では、推論中にタスクIDが利用できない場合(たとえば、クラスの増分学習シナリオ)、これらのメソッドのパフォーマンスが大幅に低下することが示されています。この作業では、モデルの利用可能な固定容量をインテリジェントに利用するクラス増分学習シナリオのためにSpaceNetと呼ばれる新しいアーキテクチャベースの方法を提案します。 SpaceNetは、コンパクトな数のニューロンで各タスクのスパース接続を圧縮する適応的な方法で、スパースディープニューラルネットワークをゼロからトレーニングします。スパース接続の適応トレーニングは、タスク間の干渉を減らすスパース表現をもたらします。実験結果は、壊滅的な古いタスクの忘却に対する提案された方法のロバスト性と、モデルの利用可能な容量を活用するSpaceNetの効率を示し、より多くのタスクを学習するためのスペースを残しています。特に、SpaceNetがCLの有名なベンチマークであるスプリットMNIST、スプリットファッション-MNIST、およびCIFAR-10 / 100でテストされた場合、大きなパフォーマンスギャップにより、正則化ベースの方法よりも優れています。さらに、モデルを拡張することなく、アーキテクチャベースの方法よりも優れたパフォーマンスを実現し、リハーサルベースの方法で同等の結果を達成しながら、メモリを大幅に削減します。
The continual learning (CL) paradigm aims to enable neural networks to learn tasks continually in a sequential fashion. The fundamental challenge in this learning paradigm is catastrophic forgetting previously learned tasks when the model is optimized for a new task, especially when their data is not accessible. Current architectural-based methods aim at alleviating the catastrophic forgetting problem but at the expense of expanding the capacity of the model. Regularization-based methods maintain a fixed model capacity; however, previous studies showed the huge performance degradation of these methods when the task identity is not available during inference (e.g. class incremental learning scenario). In this work, we propose a novel architectural-based method referred as SpaceNet for class incremental learning scenario where we utilize the available fixed capacity of the model intelligently. SpaceNet trains sparse deep neural networks from scratch in an adaptive way that compresses the sparse connections of each task in a compact number of neurons. The adaptive training of the sparse connections results in sparse representations that reduce the interference between the tasks. Experimental results show the robustness of our proposed method against catastrophic forgetting old tasks and the efficiency of SpaceNet in utilizing the available capacity of the model, leaving space for more tasks to be learned. In particular, when SpaceNet is tested on the well-known benchmarks for CL: split MNIST, split Fashion-MNIST, and CIFAR-10/100, it outperforms regularization-based methods by a big performance gap. Moreover, it achieves better performance than architectural-based methods without model expansion and achieved comparable results with rehearsal-based methods, while offering a huge memory reduction.
updated: Wed Apr 14 2021 08:39:33 GMT+0000 (UTC)
published: Wed Jul 15 2020 11:21:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト