arXiv reaDer
Tucker Tensor Layerを介したディープニューラルネットワークの圧縮と解釈可能性:第一原理からテンソル値逆伝播まで
Compression and Interpretability of Deep Neural Networks via Tucker Tensor Layer: From First Principles to Tensor Valued Back-Propagation
 この作業の目的は、ディープニューラルネットワーク(DNN)のアプリケーションにおける2つの主要な障害、つまり、非常に多数のトレーニング可能なパラメーターとその物理的な解釈可能性を解決することです。これは、DNNの密な重み行列の代替として、提案されているTucker Tensor Layer(TTL)に基づくテンソル値アプローチによって実現されます。これにより、一般的なDNNの重み行列を高次の重みテンソルの展開行列として扱うことができます。テンソル分解の圧縮特性により、これにより、DNNパラメータの数を劇的に削減するために、重みテンソルの多方向性を活用するための斬新で効率的なフレームワークを導入できます。また、行列の導関数の概念をテンソルに拡張することにより、TTLフレームワーク内でテンソル値の逆伝播アルゴリズムを導出します。このように、各因子行列に関する勾配を計算するプロセスを通じて、タッカー分解の物理的な解釈可能性を利用して、NNトレーニングの物理的な洞察を得ることができます。提案されたフレームワークは、合成データと、MNIST、Fashion-MNIST、およびCIFAR-10ベンチマークデータセットの両方で検証されます。全体として、トレーニングにおける各データ機能の相対的な重要性を提供する機能を通じて、TTLバックプロパゲーションは、NNに固有の「ブラックボックス」の性質を緩和するのに役立つことが示されています。また、実験では、TTLがMNISTおよびFashion-MNISTで66.63倍の圧縮を実現し、VGG-16ネットワークを簡素化することで、同等のパフォーマンスでトレーニング時間を10%短縮できることも示しています。
This work aims to help resolve the two main stumbling blocks in the application of Deep Neural Networks (DNNs), that is, the exceedingly large number of trainable parameters and their physical interpretability. This is achieved through a tensor valued approach, based on the proposed Tucker Tensor Layer (TTL), as an alternative to the dense weight-matrices of DNNs. This allows us to treat the weight-matrices of general DNNs as a matrix unfolding of a higher order weight-tensor. By virtue of the compression properties of tensor decompositions, this enables us to introduce a novel and efficient framework for exploiting the multi-way nature of the weight-tensor in order to dramatically reduce the number of DNN parameters. We also derive the tensor valued back-propagation algorithm within the TTL framework, by extending the notion of matrix derivatives to tensors. In this way, the physical interpretability of the Tucker decomposition is exploited to gain physical insights into the NN training, through the process of computing gradients with respect to each factor matrix. The proposed framework is validated on both synthetic data, and the benchmark datasets MNIST, Fashion-MNIST, and CIFAR-10. Overall, through the ability to provide the relative importance of each data feature in training, the TTL back-propagation is shown to help mitigate the "black-box" nature inherent to NNs. Experiments also illustrate that the TTL achieves a 66.63-fold compression on MNIST and Fashion-MNIST, while, by simplifying the VGG-16 network, it achieves a 10% speed up in training time, at a comparable performance.
updated: Mon Jan 06 2020 10:41:42 GMT+0000 (UTC)
published: Thu Mar 14 2019 17:19:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト