スパイキングニューラルネットワーク(SNN)は、時間情報に基づいてニューロンをシミュレートすることにより、よりデータ効率の高い深層学習に向けた実用的なアプローチです。この論文では、空間的および時間的次元の両方に沿ってスパイクシーケンスの関連性を効果的に実施することにより、注意メカニズムに依存する効率的なSNN手法であるTemporal-Channel Joint Attention(TCJA)アーキテクチャユニットを提案します。私たちの重要な技術的貢献は次のとおりです。1)スクイーズ操作を使用してスパイクストリームを平均マトリックスに圧縮し、効率的な1次元畳み込みを備えた2つのローカルアテンションメカニズムを使用して、特徴抽出の時間的およびチャネル的関係を確立します。柔軟なファッション。 2)Cross Convolutional Fusion(CCF)レイヤーを利用して、時間スコープとチャネルスコープの間の相互依存性をモデル化します。これにより、2つの次元の独立性が失われ、機能間の相互作用が実現されます。データストリームを共同で探索および再キャリブレーションすることにより、私たちの方法は、Fashion-MNISTを含む、テストされたすべての主流の静的およびニューロモルフィックデータセットでトップ1の分類精度に関して、最先端(SOTA)を最大15.7%上回ります。 、CIFAR10-DVS、N-Caltech 101、およびDVS128ジェスチャ。
Spiking Neural Networks (SNNs) is a practical approach toward more data-efficient deep learning by simulating neurons leverage on temporal information. In this paper, we propose the Temporal-Channel Joint Attention (TCJA) architectural unit, an efficient SNN technique that depends on attention mechanisms, by effectively enforcing the relevance of spike sequence along both spatial and temporal dimensions. Our essential technical contribution lies on: 1) compressing the spike stream into an average matrix by employing the squeeze operation, then using two local attention mechanisms with an efficient 1-D convolution to establish temporal-wise and channel-wise relations for feature extraction in a flexible fashion. 2) utilizing the Cross Convolutional Fusion (CCF) layer for modeling inter-dependencies between temporal and channel scope, which breaks the independence of the two dimensions and realizes the interaction between features. By virtue of jointly exploring and recalibrating data stream, our method outperforms the state-of-the-art (SOTA) by up to 15.7% in terms of top-1 classification accuracy on all tested mainstream static and neuromorphic datasets, including Fashion-MNIST, CIFAR10-DVS, N-Caltech 101, and DVS128 Gesture.