ディープネットワークでのアクティベーション関数の選択は、トレーニングダイナミクスとタスクパフォーマンスに大きな影響を与えます。現在、最も成功し、広く使用されているアクティベーション関数は、Rectified Linear Unit(ReLU)です。 ReLUのさまざまな手動設計の代替案が提案されていますが、一貫性のない利益のために、ReLUに代わるものはありません。この作業では、自動検索技術を活用して新しいアクティベーション機能を発見することを提案します。徹底的学習と強化学習ベースの検索の組み合わせを使用して、複数の新しい活性化機能を発見します。発見された最良の活性化関数を使用して経験的評価を行うことにより、検索の有効性を検証します。私たちの実験では、最も発見された活性化関数f(x)= x∙sigmoid(βx)はSwishと名付けられており、多くの困難なデータセットにわたるより深いモデルでReLUよりもうまく動作する傾向があることを示しています。たとえば、ReLUをSwishユニットに置き換えるだけで、ImageNetのトップ1分類精度がモバイルNASNet-Aで0.9%、Inception-ResNet-v2で0.6%向上します。 SwishのシンプルさとReLUとの類似性により、実践者は任意のニューラルネットワークでReLUをSwishユニットに簡単に置き換えることができます。
The choice of activation functions in deep networks has a significant effect on the training dynamics and task performance. Currently, the most successful and widely-used activation function is the Rectified Linear Unit (ReLU). Although various hand-designed alternatives to ReLU have been proposed, none have managed to replace it due to inconsistent gains. In this work, we propose to leverage automatic search techniques to discover new activation functions. Using a combination of exhaustive and reinforcement learning-based search, we discover multiple novel activation functions. We verify the effectiveness of the searches by conducting an empirical evaluation with the best discovered activation function. Our experiments show that the best discovered activation function, f(x) = x ∙sigmoid(βx), which we name Swish, tends to work better than ReLU on deeper models across a number of challenging datasets. For example, simply replacing ReLUs with Swish units improves top-1 classification accuracy on ImageNet by 0.9% for Mobile NASNet-A and 0.6% for Inception-ResNet-v2. The simplicity of Swish and its similarity to ReLU make it easy for practitioners to replace ReLUs with Swish units in any neural network.