arXiv reaDer
Spartus:時空間スパース性を活用した9.4 TOp /sFPGAベースのLSTMアクセラレータ
Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-Temporal Sparsity
長短期記憶(LSTM)リカレントネットワークは、音声認識などの時系列データを含むタスクに頻繁に使用されます。空間的重みスパース性または時間的活性化スパース性のいずれかを利用する以前のLSTMアクセラレータとは異なり、この論文では、時空間的スパース性を利用して超低遅延推論を実現する「Spartus」と呼ばれる新しいアクセラレータを提案します。空間スパース性は、新しい列バランスターゲットドロップアウト(CBTD)構造化プルーニング法を使用して誘導されます。これにより、バランスの取れたワークロードの構造化スパース重み行列が生成されます。 Spartusハードウェアで実行されているプルーニングされたネットワークは、TIMITおよびLibrispeechデータセットでの精度の低下を無視して、最大96%および94%の重みのスパース性を実現します。 LSTMに時間的スパース性を誘発するために、以前のDeltaGRUメソッドをDeltaLSTMメソッドに拡張します。時空間スパース性をCBTDおよびDeltaLSTMと組み合わせると、重みメモリアクセスおよび関連する算術演算を節約できます。 Spartusアーキテクチャはスケーラブルであり、大小のFPGAに実装すると、リアルタイムのオンライン音声認識をサポートします。 1024ニューロンの単一のDeltaLSTMレイヤーのサンプルあたりのSpartusレイテンシーは、平均1usです。時空間スパース性を活用すると、Spartusの理論上のハードウェアパフォーマンスが46倍高速化され、9.4 TOp/sの有効なバッチ1スループットと1.1TOp/ s/Wの電力効率が達成されます。
Long Short-Term Memory (LSTM) recurrent networks are frequently used for tasks involving time-sequential data such as speech recognition. Unlike previous LSTM accelerators that either exploit spatial weight sparsity or temporal activation sparsity, this paper proposes a new accelerator called "Spartus" that exploits spatio-temporal sparsity to achieve ultralow latency inference. Spatial sparsity is induced using a new Column-Balanced Targeted Dropout (CBTD) structured pruning method, which produces structured sparse weight matrices for balanced workloads. The pruned networks running on Spartus hardware achieve weight sparsity of up to 96% and 94% with negligible accuracy loss on the TIMIT and the Librispeech datasets. To induce temporal sparsity in LSTM, we extend the previous DeltaGRU method to the DeltaLSTM method. Combining spatio-temporal sparsity with CBTD and DeltaLSTM saves on weight memory access and associated arithmetic operations. The Spartus architecture is scalable and supports real-time online speech recognition when implemented on small and large FPGAs. Spartus per-sample latency for a single DeltaLSTM layer of 1024 neurons averages 1 us. Exploiting spatio-temporal sparsity leads to 46X speedup of Spartus over its theoretical hardware performance to achieve 9.4 TOp/s effective batch-1 throughput and 1.1 TOp/s/W power efficiency.
updated: Tue Mar 29 2022 08:43:37 GMT+0000 (UTC)
published: Wed Aug 04 2021 22:02:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト