ContCap: A scalable framework for continual image captioning
 高度な画像キャプションシステムが画像を首尾一貫して正確に記述するようになっている一方で、継続的な学習の最近の進歩により、ディープラーニングモデルで壊滅的な忘却を回避できます。ただし、継続的な学習で画像キャプションが機能するドメインはまだ調査されていません。継続的な学習と画像のキャプションを統合するタスクを、継続的な画像のキャプションと定義します。この作業では、壊滅的な忘却に対処するだけでなく、継続的な学習を画像キャプションにシームレスに統合する、一連の新しいタスクに対してキャプションを生成するフレームワークであるContCapを提案します。画像キャプションで忘却を証明した後、単純な微調整スキーマをベースラインとして、忘却のジレンマを克服するためのさまざまな手法を提案します。 MS-COCO 2014データセットを分割して、以前に提供されたタスクのデータセットを再検討することなく、クラス増分設定で実験を実行します。実験では古いタスクのパフォーマンスが著しく改善されているのに対し、新しいものの数値は驚くほど微調整を上回っています。当社のフレームワークは、継続的な画像またはビデオのキャプションのためのスケーラブルなソリューションも提供します。
While advanced image captioning systems are increasingly describing images coherently and exactly, recent progress in continual learning allows deep learning models to avoid catastrophic forgetting. However, the domain where image captioning working with continual learning has not yet been explored. We define the task in which we consolidate continual learning and image captioning as continual image captioning. In this work, we propose ContCap, a framework generating captions over a series of new tasks coming, seamlessly integrating continual learning into image captioning besides addressing catastrophic forgetting. After proving forgetting in image captioning, we propose various techniques to overcome the forgetting dilemma by taking a simple fine-tuning schema as the baseline. We split MS-COCO 2014 dataset to perform experiments in class-incremental settings without revisiting dataset of previously provided tasks. Experiments show remarkable improvements in the performance on the old tasks while the figures for the new surprisingly surpass fine-tuning. Our framework also offers a scalable solution for continual image or video captioning.
updated: Tue Apr 21 2020 02:56:33 GMT+0000 (UTC)
published: Thu Sep 19 2019 00:31:17 GMT+0000 (UTC)
