arXiv reaDer
How transferable are features in deep neural networks?
自然画像でトレーニングされた多くのディープニューラルネットワークは、共通の奇妙な現象を示します。最初の層では、ガボールフィルターとカラーブロブに似た機能を学習します。このような第1層の機能は、特定のデータセットまたはタスクに固有のものではなく、多くのデータセットおよびタスクに適用できるという点で一般的です。機能は最終的にネットワークの最後の層までに一般から特定へと移行する必要がありますが、この移行は広く研究されていません。この論文では、深い畳み込みニューラルネットワークの各層のニューロンの一般性と特異性を実験的に定量化し、いくつかの驚くべき結果を報告します。転送可能性は、2つの明確な問題によって悪影響を受けます。(1)予想されるターゲットタスクのパフォーマンスを犠牲にして、元のタスクへの上位層ニューロンの特殊化、および(2)適応ネットワーク間の分割に関連する最適化の問題予想外のニューロン。 ImageNetでトレーニングされたネットワーク例では、ネットワークの下部、中央、上部のいずれから機能を転送するかに応じて、これら2つの問題のいずれかが支配的であることを示しています。また、ベースタスクとターゲットタスクの間の距離が長くなると、フィーチャの転送可能性が低下しますが、ランダムなフィーチャを使用するよりも遠くのタスクからでもフィーチャを転送する方が優れている場合があることも文書化しています。最後の驚くべき結果は、ほぼ任意の数のレイヤーから転送されたフィーチャを使用してネットワークを初期化すると、ターゲットデータセットを微調整した後でも一般化が後押しされることです。
Many deep neural networks trained on natural images exhibit a curious phenomenon in common: on the first layer they learn features similar to Gabor filters and color blobs. Such first-layer features appear not to be specific to a particular dataset or task, but general in that they are applicable to many datasets and tasks. Features must eventually transition from general to specific by the last layer of the network, but this transition has not been studied extensively. In this paper we experimentally quantify the generality versus specificity of neurons in each layer of a deep convolutional neural network and report a few surprising results. Transferability is negatively affected by two distinct issues: (1) the specialization of higher layer neurons to their original task at the expense of performance on the target task, which was expected, and (2) optimization difficulties related to splitting networks between co-adapted neurons, which was not expected. In an example network trained on ImageNet, we demonstrate that either of these two issues may dominate, depending on whether features are transferred from the bottom, middle, or top of the network. We also document that the transferability of features decreases as the distance between the base task and target task increases, but that transferring features even from distant tasks can be better than using random features. A final surprising result is that initializing a network with transferred features from almost any number of layers can produce a boost to generalization that lingers even after fine-tuning to the target dataset.
updated: Thu Nov 06 2014 23:09:37 GMT+0000 (UTC)
published: Thu Nov 06 2014 23:09:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト