時空間パターン認識は、多くの実世界の活動に必要な脳の基本的な能力です。最近の深層学習アプローチは、このようなタスクで卓越した精度に達していますが、従来の組み込みソリューションへの実装は依然として非常に計算量が多く、エネルギーが高価です。ロボット アプリケーションにおける触覚センシングは、リアルタイム処理とエネルギー効率が求められる代表的な例です。脳に着想を得たコンピューティング アプローチに従って、点字の文字読み取りによるエッジでの時空間触覚パターン認識の新しいベンチマークを提案します。 iCub ロボットの指先の静電容量式触覚センサーに基づいて、新しい点字文字セットを記録しました。次に、空間的および時間的な情報の重要性と、スパイクベースの計算に対するイベントベースのエンコードの影響を調査しました。その後、時間によるバックプロパゲーション (BPTT) とサロゲート勾配を使用して、フィードフォワードおよびリカレント スパイキング ニューラル ネットワーク (SNN) をオフラインでトレーニングおよび比較し、インテル Loihi ニューロモーフィック チップに展開して、高速で効率的な推論を実現しました。分類の精度、電力、エネルギー消費、および遅延の観点から、私たちのアプローチを標準の分類器、特に組み込みの NVIDIA Jetson GPU に展開された Long Short-Term Memory (LSTM) と比較しました。私たちの結果は、イベントベースの入力の代わりに連続フレームベースのデータを使用すると、LSTM が最大 97% の精度に達し、再帰 SNN を最大 17% 上回ることを示しています。ただし、イベントベースの入力を使用した Loihi のリカレント SNN は、Jetson の LSTM よりも最大 500 倍エネルギー効率が高く、必要な総電力はわずか最大 30mW です。この研究では、触覚センシングの新しいベンチマークを提案し、エッジでの時空間パターン認識のためのイベントベースのエンコーディング、ニューロモーフィック ハードウェア、およびスパイクベースのコンピューティングの課題と機会を強調しています。
Spatio-temporal pattern recognition is a fundamental ability of the brain which is required for numerous real-world activities. Recent deep learning approaches have reached outstanding accuracies in such tasks, but their implementation on conventional embedded solutions is still very computationally and energy expensive. Tactile sensing in robotic applications is a representative example where real-time processing and energy efficiency are required. Following a brain-inspired computing approach, we propose a new benchmark for spatio-temporal tactile pattern recognition at the edge through Braille letter reading. We recorded a new Braille letters dataset based on the capacitive tactile sensors of the iCub robot's fingertip. We then investigated the importance of spatial and temporal information as well as the impact of event-based encoding on spike-based computation. Afterward, we trained and compared feedforward and recurrent Spiking Neural Networks (SNNs) offline using Backpropagation Through Time (BPTT) with surrogate gradients, then we deployed them on the Intel Loihi neuromorphic chip for fast and efficient inference. We compared our approach to standard classifiers, in particular to the Long Short-Term Memory (LSTM) deployed on the embedded NVIDIA Jetson GPU, in terms of classification accuracy, power, energy consumption, and delay. Our results show that the LSTM reaches ~97% of accuracy, outperforming the recurrent SNN by ~17% when using continuous frame-based data instead of event-based inputs. However, the recurrent SNN on Loihi with event-based inputs is ~500 times more energy-efficient than the LSTM on Jetson, requiring a total power of only ~30mW. This work proposes a new benchmark for tactile sensing and highlights the challenges and opportunities of event-based encoding, neuromorphic hardware, and spike-based computing for spatio-temporal pattern recognition at the edge.