ディープニューラルネットワーク(DNN)は、クラスの増分学習に適用されています。これは、新しいクラスを継続的に学習する一般的な現実の問題を解決することを目的としています。標準のDNNの欠点の1つは、壊滅的な忘却の傾向があることです。知識蒸留(KD)は、この問題を軽減するために一般的に使用される手法です。このペーパーでは、モデルが古いクラス内でより識別的な結果を出力するのに実際に役立つことを実証します。ただし、モデルがオブジェクトを新しいクラスに分類する傾向があり、KDのプラスの効果が隠されて制限されるという問題を軽減することはできません。壊滅的な忘却を引き起こす重要な要因は、最後に完全に接続された(FC)レイヤーの重みがクラスのインクリメンタル学習で大きく偏っているということです。この論文では、壊滅的な忘却に対処するために、前述の観察に基づいたシンプルで効果的なソリューションを提案します。まず、古いクラス内で差別を維持するためにKDを利用します。次に、古いクラスと新しいクラスの間の公平性をさらに維持するために、通常のトレーニングプロセスの後で、FCレイヤーの偏った重みを修正するWeight Aligning(WA)を提案します。前の作業とは異なり、WAはバイアスのかかった重み自体によって提供される情報を利用するため、事前に追加のパラメーターや検証セットを必要としません。提案された方法は、さまざまな設定の下でImageNet-1000、ImageNet-100、およびCIFAR-100で評価されます。実験結果は、提案された方法が壊滅的な忘却を効果的に軽減し、最先端の方法を大幅に上回ることができることを示しています。
Deep neural networks (DNNs) have been applied in class incremental learning, which aims to solve common real-world problems of learning new classes continually. One drawback of standard DNNs is that they are prone to catastrophic forgetting. Knowledge distillation (KD) is a commonly used technique to alleviate this problem. In this paper, we demonstrate it can indeed help the model to output more discriminative results within old classes. However, it cannot alleviate the problem that the model tends to classify objects into new classes, causing the positive effect of KD to be hidden and limited. We observed that an important factor causing catastrophic forgetting is that the weights in the last fully connected (FC) layer are highly biased in class incremental learning. In this paper, we propose a simple and effective solution motivated by the aforementioned observations to address catastrophic forgetting. Firstly, we utilize KD to maintain the discrimination within old classes. Then, to further maintain the fairness between old classes and new classes, we propose Weight Aligning (WA) that corrects the biased weights in the FC layer after normal training process. Unlike previous work, WA does not require any extra parameters or a validation set in advance, as it utilizes the information provided by the biased weights themselves. The proposed method is evaluated on ImageNet-1000, ImageNet-100, and CIFAR-100 under various settings. Experimental results show that the proposed method can effectively alleviate catastrophic forgetting and significantly outperform state-of-the-art methods.