ニューラルネットワークの成功により、機能エンジニアリングからアーキテクチャエンジニアリングへの焦点がシフトしました。ただし、今日の成功したネットワークは、手作業で定義された小規模なビルディングブロックのセットを使用して構築されています。ニューラルアーキテクチャ検索(NAS)の方法でさえ、ネットワーク接続パターンは大きく制約されています。この作業では、神経配線を発見する方法を提案します。レイヤーの一般的な概念を緩和し、代わりにチャネルが互いに独立した接続を形成できるようにします。これにより、可能なネットワークのスペースをはるかに大きくすることができます。ネットワークの配線はトレーニング中に固定されていません-ネットワークパラメーターを学習するにつれて、構造自体も学習します。私たちの実験は、私たちの学習した接続性が、手作業で作られランダムに配線されたネットワークよりも優れていることを示しています。 MobileNetV1の接続性を学習することにより、約4100万FLOPでImageNetの精度を10%向上させます。さらに、我々の方法が回帰的で連続的な時間ネットワークに一般化されることを示します。私たちの仕事は、ニューラルアーキテクチャの検索問題のコアアスペクトをスパースニューラルネットワーク学習と統合していると見なすこともできます。 NASがよりきめ細かくなるにつれて、優れたアーキテクチャを見つけることは、完全なグラフのまばらなサブネットワークを見つけることに似ています。したがって、DNWは、事前定義されたアーキテクチャのスパースサブネットワークを1回のトレーニングで発見するための効果的なメカニズムを提供します。フォワードパス中に使用するウェイトの割合はわずかですが、コンビナトリアル番号のサブネットワークでいわゆる初期化宝くじをプレイします。コードと事前学習済みのモデルはhttps://github.com/allenai/dnwで入手できますが、追加の視覚化はhttps://mitchellnw.github.io/blog/2019/dnw/で見つけることができます。
The success of neural networks has driven a shift in focus from feature engineering to architecture engineering. However, successful networks today are constructed using a small and manually defined set of building blocks. Even in methods of neural architecture search (NAS) the network connectivity patterns are largely constrained. In this work we propose a method for discovering neural wirings. We relax the typical notion of layers and instead enable channels to form connections independent of each other. This allows for a much larger space of possible networks. The wiring of our network is not fixed during training -- as we learn the network parameters we also learn the structure itself. Our experiments demonstrate that our learned connectivity outperforms hand engineered and randomly wired networks. By learning the connectivity of MobileNetV1we boost the ImageNet accuracy by 10% at ~41M FLOPs. Moreover, we show that our method generalizes to recurrent and continuous time networks. Our work may also be regarded as unifying core aspects of the neural architecture search problem with sparse neural network learning. As NAS becomes more fine grained, finding a good architecture is akin to finding a sparse subnetwork of the complete graph. Accordingly, DNW provides an effective mechanism for discovering sparse subnetworks of predefined architectures in a single training run. Though we only ever use a small percentage of the weights during the forward pass, we still play the so-called initialization lottery with a combinatorial number of subnetworks. Code and pretrained models are available at https://github.com/allenai/dnw while additional visualizations may be found at https://mitchellnw.github.io/blog/2019/dnw/.