arXiv reaDer
TransFlow: フロー学習者としてのトランスフォーマー
TransFlow: Transformer as Flow Learner
オプティカル フローは、モーション推定、オブジェクト トラッキング、視差測定など、さまざまな重要なコンピューター ビジョン タスクに不可欠な構成要素です。この作業では、オプティカル フロー推定用の純粋なトランスフォーマー アーキテクチャである TransFlow を提案します。支配的な CNN ベースの方法と比較して、TransFlow には 3 つの利点があります。まず、空間的な自己注意と隣接するフレーム間の相互注意メカニズムを利用して、グローバルな依存関係を効果的にキャプチャすることにより、フロー推定でより正確な相関と信頼できるマッチングを提供します。第 2 に、動的なシーンでの長期的な時間的関連付けを通じて、フロー推定でより多くの妥協した情報 (オクルージョンやモーション ブラーなど) を回復します。第三に、簡潔な自己学習パラダイムを有効にし、複雑で面倒な多段階の事前トレーニング手順を効果的に排除します。 Sintel、KITTI-15、およびビデオオブジェクトの検出、補間、安定化などのいくつかのダウンストリームタスクで最先端の結果を達成しています。その有効性から、TransFlow がオプティカル フロー推定の柔軟なベースラインとして機能することを期待しています。
Optical flow is an indispensable building block for various important computer vision tasks, including motion estimation, object tracking, and disparity measurement. In this work, we propose TransFlow, a pure transformer architecture for optical flow estimation. Compared to dominant CNN-based methods, TransFlow demonstrates three advantages. First, it provides more accurate correlation and trustworthy matching in flow estimation by utilizing spatial self-attention and cross-attention mechanisms between adjacent frames to effectively capture global dependencies; Second, it recovers more compromised information (e.g., occlusion and motion blur) in flow estimation through long-range temporal association in dynamic scenes; Third, it enables a concise self-learning paradigm and effectively eliminate the complex and laborious multi-stage pre-training procedures. We achieve the state-of-the-art results on the Sintel, KITTI-15, as well as several downstream tasks, including video object detection, interpolation and stabilization. For its efficacy, we hope TransFlow could serve as a flexible baseline for optical flow estimation.
updated: Sun Apr 23 2023 03:11:23 GMT+0000 (UTC)
published: Sun Apr 23 2023 03:11:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト