arXiv reaDer
STDPで学習したスパイキングニューラルネットワークを用いた時空間行動認識に対する前処理の効果に関する研究
A Study On the Effects of Pre-processing On Spatio-temporal Action Recognition Using Spiking Neural Networks Trained with STDP
ここ数年、ニューラル ネットワークのスパイキングへの関心が高まっています。 SNN は、エネルギー効率などのパターン認識における ANN のボトルネックに対する仮想的なソリューションと見なされています。しかし、ANN から SNN への変換や逆伝播などの現在の方法は、これらのネットワークを十分に活用しておらず、教師なしの方法は、高度な人工ニューラル ネットワークに匹敵する成功にはまだ達していません。この情報はビデオの理解にとって重要であるため、スパイクを使用してモーション情報をモデル化するメカニズムを含む、スパイクタイミング依存可塑性 (STDP) などの教師なし学習方法でトレーニングされた SNN の動作を研究することが重要です。このペーパーでは、時間情報を静的フォーマットに転置し、レイテンシーコーディングを使用して視覚情報をスパイクに変換する複数の方法を示します。これらの方法は、アーリー フュージョンとレイト フュージョンとして知られる 2 種類の時間フュージョンとペアになっており、ビデオから時空間的特徴をキャプチャする際にスパイキング ニューラル ネットワークを支援するために使用されます。この論文では、STDP でトレーニングされた畳み込みスパイキング ニューラル ネットワークのネットワーク アーキテクチャに依存し、アクション認識タスクに挑戦したときのこのネットワークのパフォーマンスをテストします。スパイキング ニューラル ネットワークが動きの抽出と表現のさまざまな方法にどのように反応するかを理解することは、SNN と ANN 間のパフォーマンス ギャップを減らすのに役立ちます。この論文では、スパイキング ニューラル ネットワークを使用したアクション認識に対する特定のアクションの形状と速度の類似性の効果を示し、他の方法と比較したいくつかの方法の有効性も強調します。
There has been an increasing interest in spiking neural networks in recent years. SNNs are seen as hypothetical solutions for the bottlenecks of ANNs in pattern recognition, such as energy efficiency. But current methods such as ANN-to-SNN conversion and back-propagation do not take full advantage of these networks, and unsupervised methods have not yet reached a success comparable to advanced artificial neural networks. It is important to study the behavior of SNNs trained with unsupervised learning methods such as spike-timing dependent plasticity (STDP) on video classification tasks, including mechanisms to model motion information using spikes, as this information is critical for video understanding. This paper presents multiple methods of transposing temporal information into a static format, and then transforming the visual information into spikes using latency coding. These methods are paired with two types of temporal fusion known as early and late fusion, and are used to help the spiking neural network in capturing the spatio-temporal features from videos. In this paper, we rely on the network architecture of a convolutional spiking neural network trained with STDP, and we test the performance of this network when challenged with action recognition tasks. Understanding how a spiking neural network responds to different methods of movement extraction and representation can help reduce the performance gap between SNNs and ANNs. In this paper we show the effect of the similarity in the shape and speed of certain actions on action recognition with spiking neural networks, we also highlight the effectiveness of some methods compared to others.
updated: Mon May 31 2021 07:07:48 GMT+0000 (UTC)
published: Mon May 31 2021 07:07:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト