この論文では、セマンティック画像セグメンテーション用のネットワークアーキテクチャを自動的に生成するためのカスタマイズ可能なアーキテクチャ検索(CAS)アプローチを提案します。生成されたネットワークは、積み重ねられた計算セルのシーケンスで構成されます。計算セルは有向非巡回グラフとして表されます。各ノードは非表示(つまり、機能マップ)であり、各エッジはデータ(新しい層に変換する操作)に関連付けられています(畳み込みやプーリングなど)。トレーニング中に、CASアルゴリズムはネットワークを構築するために最適化された計算セルの検索スペースを探索します。同じタイプのセルは、1つのアーキテクチャを共有しますが、重みは異なります。ただし、実際のアプリケーションでは、GPU時間やモデルサイズなどの制約の下で最適化を実行する必要がある場合があります。このために、制約に対応するコストが各操作に割り当てられます。検索中に操作が選択されると、関連するコストが目標に追加されます。その結果、CASはカスタマイズされた制約で最適化されたアーキテクチャを検索できます。このアプローチは、CityscapesおよびCamVidデータセットで徹底的に評価されており、いくつかの最先端の技術よりも優れたパフォーマンスを示しています。さらに驚くべきことに、私たちのCASは、Nvidia TitanXp GPUで108 FPSの速度でCityscapesデータセットで72.3%mIoUを達成しています。
In this paper, we propose a Customizable Architecture Search (CAS) approach to automatically generate a network architecture for semantic image segmentation. The generated network consists of a sequence of stacked computation cells. A computation cell is represented as a directed acyclic graph, in which each node is a hidden representation (i.e., feature map) and each edge is associated with an operation (e.g., convolution and pooling), which transforms data to a new layer. During the training, the CAS algorithm explores the search space for an optimized computation cell to build a network. The cells of the same type share one architecture but with different weights. In real applications, however, an optimization may need to be conducted under some constraints such as GPU time and model size. To this end, a cost corresponding to the constraint will be assigned to each operation. When an operation is selected during the search, its associated cost will be added to the objective. As a result, our CAS is able to search an optimized architecture with customized constraints. The approach has been thoroughly evaluated on Cityscapes and CamVid datasets, and demonstrates superior performance over several state-of-the-art techniques. More remarkably, our CAS achieves 72.3% mIoU on the Cityscapes dataset with speed of 108 FPS on an Nvidia TitanXp GPU.