arXiv reaDer
FastFlowNet:高速オプティカルフロー推定のための軽量ネットワーク
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation
高密度オプティカルフロー推定は、多くのロボットビジョンタスクで重要な役割を果たします。過去数年間、ディープラーニングの出現により、オプティカルフローの推定に大きな進歩が見られました。ただし、現在のネットワークは多くの場合、多数のパラメータで構成されており、計算コストが高く、携帯電話などの低消費電力デバイスへの適用が大幅に妨げられています。この論文では、この課題に取り組み、高速で正確なオプティカルフロー予測のための軽量モデルを設計します。私たちが提案するFastFlowNetは、広く使用されている粗いものから細かいものへのパラダイムに従い、次の革新をもたらします。まず、新しいヘッド拡張プーリングピラミッド(HEPP)特徴抽出器を使用して、パラメーターを減らしながら高解像度のピラミッド特徴を強化します。次に、計算の負担を軽減して大きな検索半径を維持できるコンパクトなコストボリュームを構築するための新しいセンターデンス拡張相関(CDDC)レイヤーを導入します。第3に、効率的なシャッフルブロックデコーダー(SBD)が各ピラミッドレベルに埋め込まれ、精度がわずかに低下して流量推定が加速されます。合成Sintelデータと実際のKITTIデータセットの両方での実験は、提案されたアプローチの有効性を示しています。これは、同等の精度を達成するために同等のネットワークの1/10の計算のみを必要とします。特に、FastFlowNetには137万個のパラメーターしか含まれていません。解像度1024x436のSintelイメージのペアで、90 FPS(単一のGTX 1080Tiを使用)または5.7 FPS(埋め込みJetson TX2 GPU)で実行できます。
Dense optical flow estimation plays a key role in many robotic vision tasks. In the past few years, with the advent of deep learning, we have witnessed great progress in optical flow estimation. However, current networks often consist of a large number of parameters and require heavy computation costs, largely hindering its application on low power-consumption devices such as mobile phones. In this paper, we tackle this challenge and design a lightweight model for fast and accurate optical flow prediction. Our proposed FastFlowNet follows the widely-used coarse-to-fine paradigm with following innovations. First, a new head enhanced pooling pyramid (HEPP) feature extractor is employed to intensify high-resolution pyramid features while reducing parameters. Second, we introduce a new center dense dilated correlation (CDDC) layer for constructing compact cost volume that can keep large search radius with reduced computation burden. Third, an efficient shuffle block decoder (SBD) is implanted into each pyramid level to accelerate flow estimation with marginal drops in accuracy. Experiments on both synthetic Sintel data and real-world KITTI datasets demonstrate the effectiveness of the proposed approach, which needs only 1/10 computation of comparable networks to achieve on par accuracy. In particular, FastFlowNet only contains 1.37M parameters; and can execute at 90 FPS (with a single GTX 1080Ti) or 5.7 FPS (embedded Jetson TX2 GPU) on a pair of Sintel images of resolution 1024x436.
updated: Sun Mar 21 2021 14:13:41 GMT+0000 (UTC)
published: Mon Mar 08 2021 03:09:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト