arXiv reaDer
Softmax Is Not an Artificial Trick: An Information-Theoretic View of Softmax in Neural Networks
  ニューラルネットワークの正規化されていない出力を予測クラスの確率分布にマッピングするためにsoftmaxを適用することは非常に人気がありますが、この正規化された指数変換は依然として人工的なもののようです。ソフトマックスを組み込みコンポーネントとして組み込む理論的フレームワークはまだ不足しています。この論文では、情報理論的な観点からソフトマックスを組み込んだニューラルネットワークを表示します。このビューの下で、入力データが与えられたネットワーク出力ベクトルとラベル間の条件付き相互情報を評価するためのニューラルネットワークの固有のコンポーネントとして、log-softmaxを自然かつ数学的に導出できます。 log-softmaxを最大化することによる決定論的ニューラルネットワークのトレーニングは、条件付き相互情報を拡大すること、つまりラベル情報をネットワーク出力に供給することと同等であることを示します。また、情報理論的観点を確率論的なニューラルネットワークに一般化し、log-softmaxの上限と下限の情報を導き出します。理論的には、このような情報理論的ビューは、ニューラルネットワークにソフトマックスを埋め込む合理的なサポートを提供します。実際には、最終的には、画像上のターゲットオブジェクトを除外するために情報理論的ビューを使用する方法のコンピュータービジョンアプリケーション例を示します。
Despite great popularity of applying softmax to map the non-normalised outputs of a neural network to a probability distribution over predicting classes, this normalised exponential transformation still seems to be artificial. A theoretic framework that incorporates softmax as an intrinsic component is still lacking. In this paper, we view neural networks embedding softmax from an information-theoretic perspective. Under this view, we can naturally and mathematically derive log-softmax as an inherent component in a neural network for evaluating the conditional mutual information between network output vectors and labels given an input datum. We show that training deterministic neural networks through maximising log-softmax is equivalent to enlarging the conditional mutual information, i.e., feeding label information into network outputs. We also generalise our informative-theoretic perspective to neural networks with stochasticity and derive information upper and lower bounds of log-softmax. In theory, such an information-theoretic view offers rationality support for embedding softmax in neural networks; in practice, we eventually demonstrate a computer vision application example of how to employ our information-theoretic view to filter out targeted objects on images.
updated: Tue Oct 15 2019 05:59:37 GMT+0000 (UTC)
published: Mon Oct 07 2019 06:46:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト