arXiv reaDer
FlowFormer++: オプティカル フロー推定を事前トレーニングするためのマスクされたコスト ボリュームの自動エンコード
FlowFormer++: Masked Cost Volume Autoencoding for Pretraining Optical Flow Estimation
FlowFormer は、トランスフォーマー アーキテクチャをオプティカル フロー推定に導入し、最先端のパフォーマンスを実現します。 FlowFormer のコア コンポーネントは、変圧器ベースのコスト ボリューム エンコーダーです。視覚的表現をエンコードするトランスフォーマーの能力を解き放つマスク オートエンコーディング (MAE) 事前トレーニングの最近の成功に着想を得て、新しい MAE スキームでコスト ボリューム エンコーダーを事前トレーニングすることによって FlowFormer を強化するマスク コスト ボリューム オートエンコーディング (MCVA) を提案します。まず、隣接するソース ピクセルのコスト マップが高度に相関しているため、マスクされた情報漏えいを防ぐブロック共有マスキング戦略を導入します。次に、コストボリュームエンコーダーが長距離情報を集約することを奨励し、事前トレーニングと微調整の一貫性を確保する、新しいプレテキスト再構成タスクを提案します。また、事前トレーニング中にマスクに対応するように FlowFormer アーキテクチャを変更する方法も示します。 MCVA で事前トレーニングされた FlowFormer++ は、Sintel と KITTI-2015 の両方のベンチマークで公開されているメソッドの中で 1 位にランクされています。具体的には、FlowFormer++ は、Sintel ベンチマークのクリーン パスと最終パスで 1.07 および 1.94 の平均エンドポイント エラー (AEPE) を達成し、FlowFormer から 7.76% および 7.18% のエラー削減につながります。 FlowFormer++ は、KITTI-2015 テスト セットで 4.52 F1-all を取得し、FlowFormer を 0.16 改善しています。
FlowFormer introduces a transformer architecture into optical flow estimation and achieves state-of-the-art performance. The core component of FlowFormer is the transformer-based cost-volume encoder. Inspired by the recent success of masked autoencoding (MAE) pretraining in unleashing transformers' capacity of encoding visual representation, we propose Masked Cost Volume Autoencoding (MCVA) to enhance FlowFormer by pretraining the cost-volume encoder with a novel MAE scheme. Firstly, we introduce a block-sharing masking strategy to prevent masked information leakage, as the cost maps of neighboring source pixels are highly correlated. Secondly, we propose a novel pre-text reconstruction task, which encourages the cost-volume encoder to aggregate long-range information and ensures pretraining-finetuning consistency. We also show how to modify the FlowFormer architecture to accommodate masks during pretraining. Pretrained with MCVA, FlowFormer++ ranks 1st among published methods on both Sintel and KITTI-2015 benchmarks. Specifically, FlowFormer++ achieves 1.07 and 1.94 average end-point error (AEPE) on the clean and final pass of Sintel benchmark, leading to 7.76% and 7.18% error reductions from FlowFormer. FlowFormer++ obtains 4.52 F1-all on the KITTI-2015 test set, improving FlowFormer by 0.16.
updated: Thu Mar 02 2023 13:28:07 GMT+0000 (UTC)
published: Thu Mar 02 2023 13:28:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト