LiSHT: ニューラル ネットワーク用のノンパラメトリック線形スケーリングされた双曲線正接活性化関数
LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation Function for Neural Networks
ニューラル ネットワークの活性化関数は、複雑なタスクを処理するために必要な非線形性を導入します。深層学習モデル用にいくつかの活性化/非線形関数が開発されています。ただし、既存のアクティベーション関数のほとんどは、勾配の問題が消滅し、大きな負の入力値が使用されないために問題が発生します。この論文では、Tanh を線形にスケーリングすることにより、ニューラル ネットワーク (NN) の線形にスケーリングされた双曲線正接 (LiSHT) を提案します。提案された LiSHT はノンパラメトリックで、瀕死の勾配問題に取り組みます。ベクターデータ、画像データ、自然言語データなど、さまざまなタイプのベンチマークデータセットで実験を行います。多層パーセプトロン (MLP)、残差ネットワーク (ResNet)、長短期記憶 (LSTM) をそれぞれデータ分類、画像分類、ツイート分類タスクに使用して、優れたパフォーマンスを観察します。 LiSHT で ResNet モデルを使用した CIFAR100 データセットの精度は、Tanh、ReLU、PReLU、LReLU、および Swish と比較して、それぞれ 9.48、3.40、3.16、4.26、および 1.17% 向上しています。また、提案されたアクティベーション関数をサポートするために、損失ランドスケープ、重み分布、およびアクティベーション マップを使用した定性的な結果も示します。
The activation function in neural network introduces the non-linearity required to deal with the complex tasks. Several activation/non-linearity functions are developed for deep learning models. However, most of the existing activation functions suffer due to the dying gradient problem and non-utilization of the large negative input values. In this paper, we propose a Linearly Scaled Hyperbolic Tangent (LiSHT) for Neural Networks (NNs) by scaling the Tanh linearly. The proposed LiSHT is non-parametric and tackles the dying gradient problem. We perform the experiments on benchmark datasets of different type, such as vector data, image data and natural language data. We observe the superior performance using Multi-layer Perceptron (MLP), Residual Network (ResNet) and Long-short term memory (LSTM) for data classification, image classification and tweets classification tasks, respectively. The accuracy on CIFAR100 dataset using ResNet model with LiSHT is improved by 9.48, 3.40, 3.16, 4.26, and 1.17% as compared to Tanh, ReLU, PReLU, LReLU, and Swish, respectively. We also show the qualitative results using loss landscape, weight distribution and activations maps in support of the proposed activation function.
updated: Fri Feb 17 2023 01:49:12 GMT+0000 (UTC)
published: Tue Jan 01 2019 02:24:06 GMT+0000 (UTC)
