arXiv reaDer
SSTM: マルチフレーム オプティカル フロー推定のための時空間リカレント トランスフォーマー
SSTM: Spatiotemporal Recurrent Transformers for Multi-frame Optical Flow Estimation
遮られた領域内およびその近くの不正確なオプティカル フロー推定、および境界外領域は、オプティカル フロー推定アルゴリズムの現在の重大な制限の 2 つです。最近の最先端のオプティカル フロー推定アルゴリズムは、2 フレーム ベースの方法であり、シーケンス内の連続する各画像ペアに対して、オプティカル フローが順次推定されます。このアプローチでは適切なフロー推定値が得られますが、主にシーン内の要素の移動に関する局所的な証拠が限られているため、遮られた領域のオプティカル フローを一般化することはできません。この作業では、マルチフレーム画像シーケンスから 2 つ以上の連続するオプティカル フローを並列に推定する学習ベースのマルチフレーム オプティカル フロー推定方法を提案します。私たちの根底にある仮説は、2 つ以上のフレームを含む長いシーケンスから時間シーンのダイナミクスを理解することで、より大きな時空間ドメインでピクセル単位の依存関係を特徴付け、複雑なモーション パターンを一般化し、それによって遮られた領域でのオプティカル フロー推定の精度を向上させることができるというものです。マルチフレーム ベースのオプティカル フロー推定 (SSTM) のための学習ベースの時空間リカレント トランスフォーマーを提示します。私たちの方法は、3D Convolutional Gated Recurrent Units (3D-ConvGRU) と時空間トランスフォーマーを利用して、シーン内の反復時空間モーション ダイナミクスとグローバルな依存関係を学習し、一般化されたオプティカル フロー推定を提供します。現実世界および合成データセットに対する最近の最先端の 2 フレームおよびマルチフレーム メソッドと比較すると、SSTM のパフォーマンスは、閉塞領域および境界外領域で大幅に高くなりました。公開されているすべての最先端のマルチフレーム手法の中で、SSTM は Sintel Final および KITTI2015 ベンチマーク データセットで最先端の結果を達成しました。
Inaccurate optical flow estimates in and near occluded regions, and out-of-boundary regions are two of the current significant limitations of optical flow estimation algorithms. Recent state-of-the-art optical flow estimation algorithms are two-frame based methods where optical flow is estimated sequentially for each consecutive image pair in a sequence. While this approach gives good flow estimates, it fails to generalize optical flows in occluded regions mainly due to limited local evidence regarding moving elements in a scene. In this work, we propose a learning-based multi-frame optical flow estimation method that estimates two or more consecutive optical flows in parallel from multi-frame image sequences. Our underlying hypothesis is that by understanding temporal scene dynamics from longer sequences with more than two frames, we can characterize pixel-wise dependencies in a larger spatiotemporal domain, generalize complex motion patterns and thereby improve the accuracy of optical flow estimates in occluded regions. We present learning-based spatiotemporal recurrent transformers for multi-frame based optical flow estimation (SSTMs). Our method utilizes 3D Convolutional Gated Recurrent Units (3D-ConvGRUs) and spatiotemporal transformers to learn recurrent space-time motion dynamics and global dependencies in the scene and provide a generalized optical flow estimation. When compared with recent state-of-the-art two-frame and multi-frame methods on real world and synthetic datasets, performance of the SSTMs were significantly higher in occluded and out-of-boundary regions. Among all published state-of-the-art multi-frame methods, SSTM achieved state-of the-art results on the Sintel Final and KITTI2015 benchmark datasets.
updated: Wed Apr 26 2023 23:39:40 GMT+0000 (UTC)
published: Wed Apr 26 2023 23:39:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト