最近では、自己教師あり表現学習により、マルチメディア技術がさらに発展しています。既存のほとんどの自己教師あり学習方法は、パッケージ化されたデータに適用できます。ただし、ストリーミングされたデータに関しては、大規模な研究が行われていない壊滅的な忘却の問題に苦しんでいます。本稿では、主流の自己教師あり学習法、すなわち対照学習法における壊滅的忘却問題に取り組む最初の試みを行います。具体的には、最初にリハーサルベースのフレームワークを開発し、新しいサンプリング戦略と自己管理型の知識蒸留を組み合わせて、時間の経過とともに情報を効率的に転送します。次に、ネットワークが埋め込み空間内の古いデータと新しいデータの特徴表現を分離するのに役立つ追加のサンプル キューを提案します。実験結果によると、テクニックを使わずにタスクを 1 つずつ学習する単純な自己教師ありベースラインと比較して、画像分類精度が CIFAR-100 で 1.60%、ImageNet-Sub で 2.86%、ImageNet で 1.29% 向上することが示されています。・フル10段以下の設定。コードは https://github.com/VDIGPKU/ContinualContrastiveLearning で入手できます。
Recently, self-supervised representation learning gives further development in multimedia technology. Most existing self-supervised learning methods are applicable to packaged data. However, when it comes to streamed data, they are suffering from a catastrophic forgetting problem, which is not studied extensively. In this paper, we make the first attempt to tackle the catastrophic forgetting problem in the mainstream self-supervised methods, i.e., contrastive learning methods. Specifically, we first develop a rehearsal-based framework combined with a novel sampling strategy and a self-supervised knowledge distillation to transfer information over time efficiently. Then, we propose an extra sample queue to help the network separate the feature representations of old and new data in the embedding space. Experimental results show that compared with the naive self-supervised baseline, which learns tasks one by one without taking any technique, we improve the image classification accuracy by 1.60% on CIFAR-100, 2.86% on ImageNet-Sub, and 1.29% on ImageNet-Full under 10 incremental steps setting. Our code will be available at https://github.com/VDIGPKU/ContinualContrastiveLearning.