arXiv reaDer
LiSHT:ニューラルネットワーク用のノンパラメトリック線形スケーリング双曲線正接活性化関数
LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation Function for Neural Networks
ニューラルネットワークのアクティベーション関数は、非線形性を学習プロセスに導入することでディープトレーニングを容易にする重要な側面の1つです。ただし、ゼロハード整流のため、ReLUやSwishなどの既存のアクティブ化関数の一部は大きな負の入力値を利用できず、死にかけている勾配の問題に悩まされる可能性があります。したがって、そのような問題のないより良い活性化機能を探すことが重要です。救済策として、このペーパーでは、ニューラルネットワーク(NN)の線形スケーリングされた双曲線正接(LiSHT)と呼ばれる新しいノンパラメトリック関数を提案します。提案されたLiSHTアクティベーション関数は、線形関数によって非線形双曲線正接(Tanh)関数をスケーリングし、死にかけている勾配問題に取り組む試みです。トレーニングと分類の実験は、ベンチマークのアイリス、MNIST、CIFAR10、CIFAR100、およびtwitter140データセットに対して実行され、提案されたアクティブ化がより高速な収束とより高いパフォーマンスを実現することを示しています。非常に有望なパフォーマンスの改善が、多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、および長期短期記憶(LSTM)のようなリカレントニューラルネットワークを含む3種類のニューラルネットワークで観察されます。提案された活性化関数の利点は、機能活性化マップ、重量分布、および損失状況の観点からも視覚化されます。コードはhttps://github.com/swalpa/lishtで入手できます。
The activation function in neural network is one of the important aspects which facilitates the deep training by introducing the non-linearity into the learning process. However, because of zero-hard rectification, some of the existing activation functions such as ReLU and Swish miss to utilize the large negative input values and may suffer from the dying gradient problem. Thus, it is important to look for a better activation function which is free from such problems. As a remedy, this paper proposes a new non-parametric function, called Linearly Scaled Hyperbolic Tangent (LiSHT) for Neural Networks (NNs). The proposed LiSHT activation function is an attempt to scale the non-linear Hyperbolic Tangent (Tanh) function by a linear function and tackle the dying gradient problem. The training and classification experiments are performed over benchmark Iris, MNIST, CIFAR10, CIFAR100 and twitter140 datasets to show that the proposed activation achieves faster convergence and higher performance. A very promising performance improvement is observed on three different type of neural networks including Multi-layer Perceptron (MLP), Convolutional Neural Network (CNN) and Recurrent neural network like Long-short term memory (LSTM). The advantages of proposed activation function are also visualized in terms of the feature activation maps, weight distribution and loss landscape. The code is available at https://github.com/swalpa/lisht.
updated: Thu Aug 06 2020 10:51:23 GMT+0000 (UTC)
published: Tue Jan 01 2019 02:24:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト