Continual learning in cross-modal retrieval
マルチモーダル表現と継続的な学習は、人間の知性に密接に関連する2つの領域です。前者は、異なるモダリティからの情報を比較および統合できる共有表現空間の学習を考慮しています(言語表現と視覚表現の間のクロスモーダル検索に焦点を当てています)。後者は、新しいタスクを学習するときに、以前に学習したタスクを忘れないようにする方法を研究します。人間はこれらの2つの側面に優れていますが、ディープニューラルネットワークはまだかなり制限されています。この論文では、両方の問題を継続的なクロスモーダル検索設定に組み合わせて提案します。ここでは、新しいタスクによって引き起こされる壊滅的な干渉が、効果的な検索に必要な埋め込みスペースとそのクロスモーダル配置にどのように影響するかを調べます。トレーニング、インデックス作成、クエリの各段階を分離する一般的なフレームワークを提案します。また、忘却につながる可能性のあるさまざまな要因を特定して調査し、それを軽減するためのツールを提案します。インデックス作成段階が重要な役割を果たし、更新された埋め込みネットワークを使用してデータベースのインデックスを再作成することを単に回避することで、大幅な利益が得られることがわかりました。 2つの画像テキスト検索データセットでメソッドを評価し、微調整ベースラインに関して大幅な向上を実現しました。
Multimodal representations and continual learning are two areas closely related to human intelligence. The former considers the learning of shared representation spaces where information from different modalities can be compared and integrated (we focus on cross-modal retrieval between language and visual representations). The latter studies how to prevent forgetting a previously learned task when learning a new one. While humans excel in these two aspects, deep neural networks are still quite limited. In this paper, we propose a combination of both problems into a continual cross-modal retrieval setting, where we study how the catastrophic interference caused by new tasks impacts the embedding spaces and their cross-modal alignment required for effective retrieval. We propose a general framework that decouples the training, indexing and querying stages. We also identify and study different factors that may lead to forgetting, and propose tools to alleviate it. We found that the indexing stage pays an important role and that simply avoiding reindexing the database with updated embedding networks can lead to significant gains. We evaluated our methods in two image-text retrieval datasets, obtaining significant gains with respect to the fine tuning baseline.
updated: Mon Apr 19 2021 14:20:57 GMT+0000 (UTC)
published: Wed Apr 14 2021 12:13:39 GMT+0000 (UTC)
