既存のオプティカルフロー推定器は通常、ピクセルごとの特徴を抽出するためのエンコーダーとして、画像分類用に通常設計されたネットワークアーキテクチャを採用しています。ただし、タスク間の自然な違いにより、画像分類用に設計されたアーキテクチャは、フロー推定には最適ではない場合があります。この問題に対処するために、FlowNASという名前のニューラルアーキテクチャ検索方法を提案して、フロー推定タスクに適したエンコーダアーキテクチャを自動的に見つけます。まず、さまざまな畳み込み演算子を含む適切な探索空間を設計し、候補アーキテクチャを効率的に評価するための重み共有スーパーネットワークを構築します。次に、スーパーネットワークをより適切にトレーニングするために、十分にトレーニングされたフロー推定器を使用してスーパーネットワークのトレーニングをガイドするFeatureAlignmentDistillationを提案します。最後に、リソースに制約のある進化的アルゴリズムを利用して、最適なアーキテクチャ(つまり、サブネットワーク)を見つけます。実験結果は、スーパーネットワークから継承された重みを持つ発見されたアーキテクチャが、KITTIで4.67%のF1-allエラーを達成し、RAFTベースラインが8.4%減少し、最先端の手作りモデルGMAおよびAGFlowを上回り、モデルの複雑さと待ち時間。ソースコードとトレーニング済みモデルはhttps://github.com/VDIGPKU/FlowNASでリリースされます。
Existing optical flow estimators usually employ the network architectures typically designed for image classification as the encoder to extract per-pixel features. However, due to the natural difference between the tasks, the architectures designed for image classification may be sub-optimal for flow estimation. To address this issue, we propose a neural architecture search method named FlowNAS to automatically find the better encoder architecture for flow estimation task. We first design a suitable search space including various convolutional operators and construct a weight-sharing super-network for efficiently evaluating the candidate architectures. Then, for better training the super-network, we propose Feature Alignment Distillation, which utilizes a well-trained flow estimator to guide the training of super-network. Finally, a resource-constrained evolutionary algorithm is exploited to find an optimal architecture (i.e., sub-network). Experimental results show that the discovered architecture with the weights inherited from the super-network achieves 4.67% F1-all error on KITTI, an 8.4% reduction of RAFT baseline, surpassing state-of-the-art handcrafted models GMA and AGFlow, while reducing the model complexity and latency. The source code and trained models will be released in https://github.com/VDIGPKU/FlowNAS.