コンピュータビジョンの多くの研究作業は、ベンチマークでさらにパーセンテージポイントを取得するために、既存のネットワークアーキテクチャを最適化することに費やされています。最近のAutoMLアプローチは、この努力から解放されることを約束します。ただし、それらは主に比較的小規模な分類タスク向けに設計されています。この作業では、既存のAutoMLテクニックを使用および拡張して、大規模なU-Netのようなエンコーダーデコーダーアーキテクチャーを効率的に最適化する方法を示します。特に、ハイパーパラメータ検索のために、勾配ベースのニューラルアーキテクチャ検索とベイジアン最適化を活用しています。結果の最適化には、大規模な計算クラスタは必要ありません。手動で最適化されたベースラインを明らかに上回り、最先端のパフォーマンスに達する視差推定の結果を示します。
Much research work in computer vision is being spent on optimizing existing network architectures to obtain a few more percentage points on benchmarks. Recent AutoML approaches promise to relieve us from this effort. However, they are mainly designed for comparatively small-scale classification tasks. In this work, we show how to use and extend existing AutoML techniques to efficiently optimize large-scale U-Net-like encoder-decoder architectures. In particular, we leverage gradient-based neural architecture search and Bayesian optimization for hyperparameter search. The resulting optimization does not require a large-scale compute cluster. We show results on disparity estimation that clearly outperform the manually optimized baseline and reach state-of-the-art performance.