スパイキングトランスは、スパイキングニューラルネットワーク (SNN) のエネルギー効率とトランスの高容量の両方を実現するため、かなりの注目を集めています。ただし、ANN から派生した既存のスパイキング トランスフォーマ アーキテクチャには、顕著なアーキテクチャ上のギャップがあり、対応する ANN と比較して最適なパフォーマンスが得られません。最適なアーキテクチャを発見するための従来のアプローチは、主に、時間のかかる手動手順か、メモリ使用量と計算時間の点でコストがかかるニューラル アーキテクチャ検索 (NAS) 手法のいずれかに依存しています。これらの制限に対処するために、高性能でエネルギー効率の高いスパイキング トランス アーキテクチャを迅速に特定するために、スパイク トランス用のトレーニング不要の NAS 手法である AutoST を導入します。 SNN に固有の非微分可能性と高いスパース性に問題がある既存のトレーニング不要の NAS 手法とは異なり、モデルの計算やトレーニング ダイナミクスから独立した浮動小数点演算 (FLOP) をパフォーマンス メトリックとして利用することを提案します。パフォーマンスとの強い相関関係。さらに、エネルギー効率の高いアーキテクチャの探索を可能にするために、初期化中に起動パターンを活用して、スパイキング変圧器のエネルギー消費を推定します。私たちの広範な実験により、AutoST モデルは、エネルギー消費を大幅に削減しながら、静的およびニューロモーフィック データセット上で手動または自動で設計された最先端の SNN アーキテクチャよりも優れたパフォーマンスを発揮することが示されています。
Spiking Transformers have gained considerable attention because they achieve both the energy efficiency of Spiking Neural Networks (SNNs) and the high capacity of Transformers. However, the existing Spiking Transformer architectures, derived from ANNs, exhibit a notable architectural gap, resulting in suboptimal performance compared to their ANN counterparts. Traditional approaches to discovering optimal architectures primarily rely on either manual procedures, which are time-consuming, or Neural Architecture Search (NAS) methods, which are usually expensive in terms of memory footprints and computation time. To address these limitations, we introduce AutoST, a training-free NAS method for Spiking Transformers, to rapidly identify high-performance and energy-efficient Spiking Transformer architectures. Unlike existing training-free NAS methods, which struggle with the non-differentiability and high sparsity inherent in SNNs, we propose to utilize Floating-Point Operations (FLOPs) as a performance metric, which is independent of model computations and training dynamics, leading to a stronger correlation with performance. Moreover, to enable the search for energy-efficient architectures, we leverage activation patterns during initialization to estimate the energy consumption of Spiking Transformers. Our extensive experiments show that AutoST models outperform state-of-the-art manually or automatically designed SNN architectures on static and neuromorphic datasets, while significantly reducing energy consumption.