arXiv reaDer
時間動的モデリングを使用したマルチフレーム動的環境における教師なし学習オプティカル フロー
Unsupervised Learning Optical Flow in Multi-frame Dynamic Environment Using Temporal Dynamic Modeling
オプティカル フローの視覚的推定では、多くのビジョン タスクにとって重要な機能である教師なし学習が、多くの場合、グラウンド トゥルース フローが容易に利用できないため、ビュー合成の教師を使用して、教師あり方法の有望な代替手段として浮上しています。ただし、オクルージョンやモーション ブラーによってピクセル トラッキングが失われたり、時間の経過に伴う画像コンテンツや空間構造の変化によってピクセル マッチングが損なわれたりすると、教師なし学習は不安定になる可能性があります。自然環境では、動的オクルージョンまたはオブジェクトの変化は、数フレームにわたる比較的遅い時間プロセスです。したがって、動的シーンの複数フレーム シーケンスからのオプティカル フロー推定を調査しますが、既存の教師なしアプローチのほとんどは時間静的モデルに基づいています。現在のオプティカル フロー推定器の前に前の高レベルの動きを供給する、予測コーディング構造に基づく時空間二重再帰ブロックを導入することにより、時間動的モデルを使用して教師なしオプティカル フロー推定を処理します。オプティカル フローの時間的な滑らかさを仮定して、隣接するフレームのモーション プライアを使用して、遮蔽領域のより信頼性の高い監視を提供します。困難なシーンの本質を把握するために、動的オクルージョン、コンテンツの変化、空間の変化など、長いシーケンスにわたってさまざまなシナリオをシミュレートし、自己教師付き蒸留を採用して、モデルが長時間の動的環境でのオブジェクトの動きのパターンを理解できるようにします。 KITTI 2012、KITTI 2015、Sintel Clean、および Sintel Final データセットに関する実験は、教師なしオプティカル フロー推定に対する本手法の有効性を示しています。この提案は、メモリ オーバーヘッドの利点を備えた最先端のパフォーマンスを実現します。
For visual estimation of optical flow, a crucial function for many vision tasks, unsupervised learning, using the supervision of view synthesis has emerged as a promising alternative to supervised methods, since ground-truth flow is not readily available in many cases. However, unsupervised learning is likely to be unstable when pixel tracking is lost due to occlusion and motion blur, or the pixel matching is impaired due to variation in image content and spatial structure over time. In natural environments, dynamic occlusion or object variation is a relatively slow temporal process spanning several frames. We, therefore, explore the optical flow estimation from multiple-frame sequences of dynamic scenes, whereas most of the existing unsupervised approaches are based on temporal static models. We handle the unsupervised optical flow estimation with a temporal dynamic model by introducing a spatial-temporal dual recurrent block based on the predictive coding structure, which feeds the previous high-level motion prior to the current optical flow estimator. Assuming temporal smoothness of optical flow, we use motion priors of the adjacent frames to provide more reliable supervision of the occluded regions. To grasp the essence of challenging scenes, we simulate various scenarios across long sequences, including dynamic occlusion, content variation, and spatial variation, and adopt self-supervised distillation to make the model understand the object's motion patterns in a prolonged dynamic environment. Experiments on KITTI 2012, KITTI 2015, Sintel Clean, and Sintel Final datasets demonstrate the effectiveness of our methods on unsupervised optical flow estimation. The proposal achieves state-of-the-art performance with advantages in memory overhead.
updated: Fri Apr 14 2023 14:32:02 GMT+0000 (UTC)
published: Fri Apr 14 2023 14:32:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト