人間の知性が持つ壊滅的な忘却のない生涯学習 (つまり、回復力) は、脳内の高度な記憶メカニズム、特に海馬によって維持される長期記憶 (LM) と絡み合っています。ある程度まで、トランスフォーマーは人工知能 (AI) の対応する「脳」として登場しましたが、生涯学習の設定のために LM コンポーネントを未調査のままにしています。回復力のある生涯学習のためのビジョン トランスフォーマー (ViTs) で. 包括的なアブレーション研究により、ArtiHippo の実現と成長において、マルチヘッド自己注意 (MHSA) ブロックの最終的な線形投影層が選択されます. ArtiHippo は、専門家の混合によって表されます(MoEs). 各エキスパート コンポーネントは線形射影レイヤーのオンサイト バリアントであり、ニューラル アーキテクチャ検索 (NAS) によって維持され、4 つの基本的な成長操作 (スキップ、再利用、適応、および生涯学習の新規) によって定義される検索空間を使用して維持されます。 . タスクの LM は 2 つの部分で構成されます: NAS を介して学習された ViT の異なるレイヤーにある専用のエキスパート コンポーネント (モデル パラメーターとして) と、平均クラス トークン (測定用に保存された潜在ベクトルとして)タスクの類似性) エキスパート コンポーネントに関連付けられています。新しいタスクでは、エキスパート コンポーネントを学習するために、階層的なタスク類似性指向の探索 - 搾取サンプリング ベースの NAS が提案されています。タスクの類似度は、新しいタスクの平均クラス トークンと古いタスクの平均クラス トークンとの間の正規化されたコサイン類似度に基づいて測定されます。提案された方法は、ViTs によるプロンプトベースの生涯学習を補完するものです。実験では、提案された方法は、挑戦的な Visual Domain Decathlon (VDD) ベンチマークと最近提案された 5 データセット ベンチマークでテストされます。 ArtiHippo が継続的に学習することで、先行技術よりも一貫して優れたパフォーマンスが得られます。
Lifelong learning without catastrophic forgetting (i.e., resiliency) possessed by human intelligence is entangled with sophisticated memory mechanisms in the brain, especially the long-term memory (LM) maintained by Hippocampi. To a certain extent, Transformers have emerged as the counterpart ``Brain" of Artificial Intelligence (AI), and yet leave the LM component under-explored for lifelong learning settings. This paper presents a method of learning to grow Artificial Hippocampi (ArtiHippo) in Vision Transformers (ViTs) for resilient lifelong learning. With a comprehensive ablation study, the final linear projection layer in the multi-head self-attention (MHSA) block is selected in realizing and growing ArtiHippo. ArtiHippo is represented by a mixture of experts (MoEs). Each expert component is an on-site variant of the linear projection layer, maintained via neural architecture search (NAS) with the search space defined by four basic growing operations -- skip, reuse, adapt, and new in lifelong learning. The LM of a task consists of two parts: the dedicated expert components (as model parameters) at different layers of a ViT learned via NAS, and the mean class-tokens (as stored latent vectors for measuring task similarity) associated with the expert components. For a new task, a hierarchical task-similarity-oriented exploration-exploitation sampling based NAS is proposed to learn the expert components. The task similarity is measured based on the normalized cosine similarity between the mean class-token of the new task and those of old tasks. The proposed method is complementary to prompt-based lifelong learningwith ViTs. In experiments, the proposed method is tested on the challenging Visual Domain Decathlon (VDD) benchmark and the recently proposed 5-Dataset benchmark. It obtains consistently better performance than the prior art with sensible ArtiHippo learned continually.