arXiv reaDer
教師なしビデオオブジェクトセグメンテーションのための暗黙の動き補償ネットワーク
Implicit Motion-Compensated Network for Unsupervised Video Object Segmentation
教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から主要な前景オブジェクトを自動的に分離することを目的としています。既存のUVOSメソッドは、視覚的に類似した環境がある場合(外観ベース)に堅牢性に欠けるか、動的なバックグラウンドと不正確なフロー(フローベース)のために予測の品質が低下します。制限を克服するために、オプティカルフローを推定せずに、隣接するフレームから現在のフレームへの位置合わせされたモーション情報と補完的なキュー(つまり、外観とモーション)を組み合わせた暗黙の動き補償ネットワーク(IMCNet)を提案します。提案されたIMCNetは、アフィニティコンピューティングモジュール(ACM)、注意伝播モジュール(APM)、および動き補償モジュール(MCM)で構成されています。軽量ACMは、外観の特徴に基づいて、隣接する入力フレーム間の共通性を抽出します。次に、APMはグローバル相関をトップダウン方式で送信します。 APMは、粗いものから細かいものへの反復的なインスピレーションを通じて、詳細が失われないように効率的にオブジェクト領域を複数の解像度から調整します。最後に、MCMは、時間的に隣接するフレームからのモーション情報を現在のフレームに位置合わせし、機能レベルで暗黙的なモーション補正を実現します。 DAVIS_16とYouTube-Objectsで広範な実験を行います。当社のネットワークは、最先端の方法と比較してより高速で実行しながら、良好なパフォーマンスを実現します。
Unsupervised video object segmentation (UVOS) aims at automatically separating the primary foreground object(s) from the background in a video sequence. Existing UVOS methods either lack robustness when there are visually similar surroundings (appearance-based) or suffer from deterioration in the quality of their predictions because of dynamic background and inaccurate flow (flow-based). To overcome the limitations, we propose an implicit motion-compensated network (IMCNet) combining complementary cues (i.e., appearance and motion) with aligned motion information from the adjacent frames to the current frame at the feature level without estimating optical flows. The proposed IMCNet consists of an affinity computing module (ACM), an attention propagation module (APM), and a motion compensation module (MCM). The light-weight ACM extracts commonality between neighboring input frames based on appearance features. The APM then transmits global correlation in a top-down manner. Through coarse-to-fine iterative inspiring, the APM will refine object regions from multiple resolutions so as to efficiently avoid losing details. Finally, the MCM aligns motion information from temporally adjacent frames to the current frame which achieves implicit motion compensation at the feature level. We perform extensive experiments on DAVIS_16 and YouTube-Objects. Our network achieves favorable performance while running at a faster speed compared to the state-of-the-art methods.
updated: Wed Apr 06 2022 13:03:59 GMT+0000 (UTC)
published: Wed Apr 06 2022 13:03:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト