セル オートマトン (CA) の最近の拡張機能には、最新の深層学習からの重要なアイデアが組み込まれており、その機能が劇的に拡張され、ニューラル セル オートマトン (NCA) 技術の新しいファミリが触媒されています。 Transformer ベースのアーキテクチャに触発された私たちの仕事は、空間的にローカライズされた x2014 でありながらグローバルに組織化された x2014self-attention スキームを使用して形成された新しいクラスの注意ベースの NCA を提示します。 Vision Transformer Cellular Automata (ViTCA) という名前のこのクラスのインスタンスを紹介します。 ViTCA を U-Net、U-Net ベースの CA ベースライン (UNetCA)、および Vision Transformer (ViT) と比較して、6 つのベンチマーク データセットにわたる自動エンコードのノイズ除去に関する定量的および定性的な結果を提示します。同様のパラメータの複雑さで構成されたアーキテクチャ間で比較すると、ViTCA アーキテクチャは、すべてのベンチマークおよびほぼすべての評価メトリックで優れたパフォーマンスを発揮します。 ViTCA のさまざまなアーキテクチャ構成に関するアブレーション研究、細胞状態への影響の分析、およびその誘導バイアスに関する調査を提示します。最後に、収束したセル状態の非表示表現で線形プローブを介して学習した表現を調べ、U-Net、ViT、および UNetCA ベースラインと比較した場合、平均して優れた結果をもたらします。
Recent extensions of Cellular Automata (CA) have incorporated key ideas from modern deep learning, dramatically extending their capabilities and catalyzing a new family of Neural Cellular Automata (NCA) techniques. Inspired by Transformer-based architectures, our work presents a new class of attention-based NCAs formed using a spatially localizedx2014yet globally organizedx2014self-attention scheme. We introduce an instance of this class named Vision Transformer Cellular Automata (ViTCA). We present quantitative and qualitative results on denoising autoencoding across six benchmark datasets, comparing ViTCA to a U-Net, a U-Net-based CA baseline (UNetCA), and a Vision Transformer (ViT). When comparing across architectures configured to similar parameter complexity, ViTCA architectures yield superior performance across all benchmarks and for nearly every evaluation metric. We present an ablation study on various architectural configurations of ViTCA, an analysis of its effect on cell states, and an investigation on its inductive biases. Finally, we examine its learned representations via linear probes on its converged cell state hidden representations, yielding, on average, superior results when compared to our U-Net, ViT, and UNetCA baselines.