Scheduled Differentiable Architecture Search for Visual Recognition
  畳み込みニューラルネットワーク(CNN)は、視覚認識問題のモデルの有能なクラスと見なされています。それでも、一般的で強力なネットワークアーキテクチャを開発することは簡単ではありません。これには、人間の専門家の多大な努力が必要です。この論文では、勾配降下による効率的な検索を行う微分可能アーキテクチャ検索(DAS)のリモールド上で、アーキテクチャを自動的に探索するための新しいアイデアを紹介します。具体的には、トレーニング中の操作の選択とスケジュールをうまく統合した、画像とビデオの両方の認識のためのスケジュールされた微分可能アーキテクチャ検索(SDAS)を提示します。技術的には、アーキテクチャまたはセルは有向グラフとして表されます。既存のDASでトレーニングが完了すると、すべてのエッジの操作を1ステップで決定するのではなく、SDASはグラフのエッジの操作を漸進的かつスケジュールされた方法で徐々に修正します。さらに、時空間ダイナミクスをエンコードするいくつかのユニークな操作を考案し、SDASのアーキテクチャ検索に影響を与える影響を示すことにより、特にビデオ認識のためにSDASの検索スペースを拡大します。 CIFAR10、Kinetics10、UCF101、およびHMDB51データセットでアーキテクチャ学習の広範な実験が行われ、DASメソッドと比較すると優れた結果が報告されています。さらに驚くべきことに、SDASによる検索はDASよりも約2倍高速です。 CIFAR10およびKinetics10で学習したセルをそれぞれ大規模なImageNetおよびKinetics400データセットに転送する場合、構築されたネットワークはいくつかの最先端の手作りの構造よりも優れています。
Convolutional Neural Networks (CNN) have been regarded as a capable class of models for visual recognition problems. Nevertheless, it is not trivial to develop generic and powerful network architectures, which requires significant efforts of human experts. In this paper, we introduce a new idea for automatically exploring architectures on a remould of Differentiable Architecture Search (DAS), which possesses the efficient search via gradient descent. Specifically, we present Scheduled Differentiable Architecture Search (SDAS) for both image and video recognition that nicely integrates the selection of operations during training with a schedule. Technically, an architecture or a cell is represented as a directed graph. Our SDAS gradually fixes the operations on the edges in the graph in a progressive and scheduled manner, as opposed to a one-step decision of operations for all the edges once the training completes in existing DAS, which may make the architecture brittle. Moreover, we enlarge the search space of SDAS particularly for video recognition by devising several unique operations to encode spatio-temporal dynamics and demonstrate the impact in affecting the architecture search of SDAS. Extensive experiments of architecture learning are conducted on CIFAR10, Kinetics10, UCF101 and HMDB51 datasets, and superior results are reported when comparing to DAS method. More remarkably, the search by our SDAS is around 2-fold faster than DAS. When transferring the learnt cells on CIFAR10 and Kinetics10 respectively to large-scale ImageNet and Kinetics400 datasets, the constructed network also outperforms several state-of-the-art hand-crafted structures.
updated: Mon Sep 23 2019 09:19:57 GMT+0000 (UTC)
published: Mon Sep 23 2019 09:19:57 GMT+0000 (UTC)
