Locally Competitive Algorithm(LCA)は、スパイクのないリーキーインテグレーターニューロン間のローカル競合を使用してスパース表現を推測し、IntelのLoihiプロセッサなどの超並列ニューロモルフィックアーキテクチャでの潜在的なリアルタイム実行を可能にします。ここでは、スパース再構成のために教師なし方法で最適化された時空間特徴の辞書を使用して、ストリーミングビデオからスパース表現を推測する問題に焦点を当てます。非スパイクLCAは、以前は、生のラベルなしビデオからの畳み込みカーネルで構成される時空間辞書の教師なし学習を実現するために使用されていました。従来のリーキーインテグレートアンドファイア(LIF)スパイクジェネレーターと、差異を最小化するために使用される追加の状態変数を組み合わせたアキュムレーターニューロンを使用して、スパイクLCA(S-LCA)を使用した教師なし辞書学習を効率的に実装する方法を示します。統合された入力とスパイク出力の間。 CIFARデータベースから描画された静止画像とDVSカメラからキャプチャされたビデオフレームの両方のスパース表現を推測するために、段階的なスパイクから断続的なスパイクまで、幅広い動的レジームにわたる辞書学習を示します。 DVSカメラで見たときにカードのデッキをすばやくめくってスイートを識別する必要がある分類タスクでは、まばらな時空間表現を推測するために使用されるLCAモデルが段階的からスパイクに移行するため、パフォーマンスの低下は本質的にありません。アキュムレータニューロンは、イベントベースのDVSカメラからのストリーミングビデオのスパース再構築用に最適化された時空間辞書のオンライン教師なし学習を実装するための将来のニューロモルフィックハードウェアの強力な有効化コンポーネントを提供する可能性が高いと結論付けます。
The Locally Competitive Algorithm (LCA) uses local competition between non-spiking leaky integrator neurons to infer sparse representations, allowing for potentially real-time execution on massively parallel neuromorphic architectures such as Intel's Loihi processor. Here, we focus on the problem of inferring sparse representations from streaming video using dictionaries of spatiotemporal features optimized in an unsupervised manner for sparse reconstruction. Non-spiking LCA has previously been used to achieve unsupervised learning of spatiotemporal dictionaries composed of convolutional kernels from raw, unlabeled video. We demonstrate how unsupervised dictionary learning with spiking LCA (S-LCA) can be efficiently implemented using accumulator neurons, which combine a conventional leaky-integrate-and-fire (LIF) spike generator with an additional state variable that is used to minimize the difference between the integrated input and the spiking output. We demonstrate dictionary learning across a wide range of dynamical regimes, from graded to intermittent spiking, for inferring sparse representations of both static images drawn from the CIFAR database as well as video frames captured from a DVS camera. On a classification task that requires identification of the suite from a deck of cards being rapidly flipped through as viewed by a DVS camera, we find essentially no degradation in performance as the LCA model used to infer sparse spatiotemporal representations migrates from graded to spiking. We conclude that accumulator neurons are likely to provide a powerful enabling component of future neuromorphic hardware for implementing online unsupervised learning of spatiotemporal dictionaries optimized for sparse reconstruction of streaming video from event based DVS cameras.