The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network Architectures
この論文では、畳み込みニューラルネットワーク設計の問題に取り組みます。アーキテクチャ全体の設計に焦点を合わせる代わりに、通常は見落とされている設計空間を調査します。つまり、事前定義されたネットワークのチャネル構成を調整します。この調整は、拡張されたベースラインネットワークを縮小することで実現でき、優れたパフォーマンスにつながることがわかりました。これに基づいて、異質性の仮説を明確にします。同じトレーニングプロトコルで、通常のチャネル構成で元のネットワークを上回ることができるが、モデルの複雑さのレベルが低い、レイヤーごとに差別化されたネットワークアーキテクチャ(LW-DNA)が存在します。 LW-DNAモデルは、元のネットワークと比較して、追加の計算コストやトレーニング時間なしで識別されます。この制約は、層ごとの特定のチャネル構成の重要性に焦点を向ける制御された実験につながります。 LW-DNAモデルには、過剰適合に関連する利点、つまりモデルの複雑さとデータセットサイズの相対的な関係があります。実験は、画像分類、視覚追跡、画像復元のためにさまざまなネットワークとデータセットで実施されます。結果として得られるLW-DNAモデルは、ベースラインモデルを一貫して上回っています。コードはで入手できます。
In this paper, we tackle the problem of convolutional neural network design. Instead of focusing on the design of the overall architecture, we investigate a design space that is usually overlooked, i.e. adjusting the channel configurations of predefined networks. We find that this adjustment can be achieved by shrinking widened baseline networks and leads to superior performance. Based on that, we articulate the heterogeneity hypothesis: with the same training protocol, there exists a layer-wise differentiated network architecture (LW-DNA) that can outperform the original network with regular channel configurations but with a lower level of model complexity. The LW-DNA models are identified without extra computational cost or training time compared with the original network. This constraint leads to controlled experiments which direct the focus to the importance of layer-wise specific channel configurations. LW-DNA models come with advantages related to overfitting, i.e. the relative relationship between model complexity and dataset size. Experiments are conducted on various networks and datasets for image classification, visual tracking and image restoration. The resultant LW-DNA models consistently outperform the baseline models. Code is available at
