arXiv reaDer
Mish: A Self Regularized Non-Monotonic Activation Function
数学的に次のように定義できる、自己調整された新しい単調でない活性化関数であるMishを提案します。f(x)= x \ tanh(softplus(x))。アクティベーション関数はニューラルネットワークのパフォーマンスとトレーニングダイナミクスに重要な役割を果たすため、アーキテクチャとアクティベーション関数の最適な組み合わせに対するいくつかの有名なベンチマークを実験的に検証しました。また、複数のアーキテクチャにまたがるImageNet-1kやMS-COCOなどのベンチマークに、データ拡張手法が好影響を与えることも確認しています。たとえば、Mishは、MS-COCOオブジェクト検出で平均精度(AP_50 ^ val)がCSP-DarkNet-53バックボーンで、YOLOv4でLeaky ReLUを2.1%、ImageNet-1kでResNet-50でReLUを、Top-1精度で上回りました。他のすべてのネットワークパラメータとハイパーパラメータを一定に保ちながら、±1%。さらに、関数のSwishファミリとの関連でMishの数学的な定式化を探索し、一次微分動作がディープニューラルネットワークの最適化を支援する正則化関数としてどのように機能しているかに関する直感的な理解を提案します。コードはで公開されています。
We propose Mish, a novel self-regularized non-monotonic activation function which can be mathematically defined as: f(x)=x\tanh(softplus(x)). As activation functions play a crucial role in the performance and training dynamics in neural networks, we validated experimentally on several well-known benchmarks against the best combinations of architectures and activation functions. We also observe that data augmentation techniques have a favorable effect on benchmarks like ImageNet-1k and MS-COCO across multiple architectures. For example, Mish outperformed Leaky ReLU on YOLOv4 with a CSP-DarkNet-53 backbone on average precision (AP_50^val) by 2.1% in MS-COCO object detection and ReLU on ResNet-50 on ImageNet-1k in Top-1 accuracy by ≈1% while keeping all other network parameters and hyperparameters constant. Furthermore, we explore the mathematical formulation of Mish in relation with the Swish family of functions and propose an intuitive understanding on how the first derivative behavior may be acting as a regularizer helping the optimization of deep neural networks. Code is publicly available at
updated: Thu Aug 13 2020 05:42:12 GMT+0000 (UTC)
published: Fri Aug 23 2019 06:22:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト