イベントベースのカメラは、生物学的視覚システムのまばらで非同期なスパイク表現からインスピレーションを得ています。ただし、イベント データを処理するには、高価な特徴記述子を使用してスパイクをフレームに変換するか、トレーニングに高価なスパイキング ニューラル ネットワークを使用する必要があります。この研究では、低いハードウェアコストとトレーニングコストでローカルおよびグローバルな時空間特徴を検出するための、動的時間エンコーディングリザーバーと統合された単純な畳み込み層に基づくニューラルネットワークアーキテクチャであるリザーバーノード対応ニューロモーフィックビジョンセンシングネットワーク(RN-Net)を提案します。 RN-Net は、非同期時間特徴の効率的な処理を可能にし、これまでに報告されている DVS128 ジェスチャでは 99.2% という最高の精度を達成し、はるかに小さいネットワーク サイズで DVS Lip データセットでは 67.5% という最高精度の 1 つを達成します。内部デバイスと回路のダイナミクスを活用することで、前処理や専用のメモリと演算ユニットを必要とせずに、非常に低いハードウェア コストで非同期時間特徴エンコーディングを実装できます。シンプルな DNN ブロックと標準の逆伝播ベースのトレーニング ルールを使用すると、実装コストがさらに削減されます。
Event-based cameras are inspired by the sparse and asynchronous spike representation of the biological visual system. However, processing the event data requires either using expensive feature descriptors to transform spikes into frames, or using spiking neural networks that are expensive to train. In this work, we propose a neural network architecture, Reservoir Nodes-enabled neuromorphic vision sensing Network (RN-Net), based on simple convolution layers integrated with dynamic temporal encoding reservoirs for local and global spatiotemporal feature detection with low hardware and training costs. The RN-Net allows efficient processing of asynchronous temporal features, and achieves the highest accuracy of 99.2% for DVS128 Gesture reported to date, and one of the highest accuracy of 67.5% for DVS Lip dataset at a much smaller network size. By leveraging the internal device and circuit dynamics, asynchronous temporal feature encoding can be implemented at very low hardware cost without preprocessing and dedicated memory and arithmetic units. The use of simple DNN blocks and standard backpropagation-based training rules further reduces implementation costs.