整流線形単位(ReLU)は、視覚のさまざまなタスクで最も広く使用されているアクティベーション関数の1つです。最近の理論上の結果は、優れた実用的なパフォーマンスにもかかわらず、さまざまなケースで、基底展開(たとえば、多項式)での置換が、最適化と一般化の両方の観点から重要な利点をもたらすことができることを示唆しています。残念ながら、既存の結果は2層のネットワークに限定されたままであり、これらの結果の実際的な実行可能性はまだわかっていません。これらの結果のいくつかを動機として、ディープネットワークでのReLUの代わりとしてのエルミート多項式展開の使用を検討します。教師あり学習を使用した実験では明確な判断は得られませんが、この戦略は半教師あり学習(SSL)/トランスダクティブ学習の設定でかなりの利点をもたらすことがわかります。このアイデアを注意深く開発し、エルミート多項式ベースのアクティベーションを使用すると、疑似ラベルの精度と大幅な経済的節約を同時に実現できることを示します(同時実行時のメリットにより)。さらに、理論的分析を介して、ネットワーク(エルミートのアクティブ化)がノイズやその他の魅力的な数学的特性に対する堅牢性を提供することを示します。
Rectified Linear Units (ReLUs) are among the most widely used activation function in a broad variety of tasks in vision. Recent theoretical results suggest that despite their excellent practical performance, in various cases, a substitution with basis expansions (e.g., polynomials) can yield significant benefits from both the optimization and generalization perspective. Unfortunately, the existing results remain limited to networks with a couple of layers, and the practical viability of these results is not yet known. Motivated by some of these results, we explore the use of Hermite polynomial expansions as a substitute for ReLUs in deep networks. While our experiments with supervised learning do not provide a clear verdict, we find that this strategy offers considerable benefits in semi-supervised learning (SSL) / transductive learning settings. We carefully develop this idea and show how the use of Hermite polynomials based activations can yield improvements in pseudo-label accuracies and sizable financial savings (due to concurrent runtime benefits). Further, we show via theoretical analysis, that the networks (with Hermite activations) offer robustness to noise and other attractive mathematical properties.