arXiv reaDer
ゼロ ショット ビデオ オブジェクト セグメンテーションのための適応型マルチソース プレディクター
Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation
通常、実生活のビデオには静止オブジェクトと移動オブジェクトの両方が存在します。ほとんどのビデオ オブジェクト セグメンテーション方法は、移動オブジェクトを認識するためにモーション キューを正確に利用することにのみ焦点を当てています。静止オブジェクト フレームに直面すると、移動オブジェクト プレディクタは、低品質のオプティカル フロー マップなどの不確実なモーション情報によって引き起こされる失敗した結果を予測する場合があります。さらに、RGB、深度、オプティカル フロー、静的な顕著性などの多くのソースから、オブジェクトに関する有用な情報を得ることができます。ただし、既存のアプローチは、RGB または RGB とオプティカル フローのみを利用します。この論文では、ゼロショットビデオオブジェクトセグメンテーションのための新しい適応マルチソース予測器を提案します。静的オブジェクト予測では、RGB ソースが深度ソースと静的顕著性ソースに同時に変換されます。動体予測器では、マルチソースフュージョン構造を提案しています。まず、内受容空間注意モジュール (ISAM) の助けを借りて、各ソースの空間的重要性が強調されます。次に、モーション強化モジュール (MEM) は、デコーダで使用される静的および移動機能の両方を改善するために、純粋なフォアグラウンド モーション アテンションを生成するように設計されています。さらに、ソース間の互換性のない機能をフィルター処理するための機能精製モジュール (FPM) を設計します。 ISAM、MEM、FPM により、マルチソース機能が効果的に融合されます。さらに、オプティカル フローの品質を評価し、静的オブジェクト予測子と移動オブジェクト予測子からの予測を融合するために、適応型予測融合ネットワーク (APF) を提唱しました。高品質のオプティカル フロー マップ。実験は、提案されたモデルが 3 つの困難な ZVOS ベンチマークで最先端の方法よりも優れていることを示しています。また、静的オブジェクト予測器は、高品質の深度マップと静的顕著性マップを同時に正確に予測できます。
Both static and moving objects usually exist in real-life videos. Most video object segmentation methods only focus on exacting and exploiting motion cues to perceive moving objects. Once faced with static objects frames, moving object predictors may predict failed results caused by uncertain motion information, such as low-quality optical flow maps. Besides, many sources such as RGB, depth, optical flow and static saliency can provide useful information about the objects. However, existing approaches only utilize the RGB or RGB and optical flow. In this paper, we propose a novel adaptive multi-source predictor for zero-shot video object segmentation. In the static object predictor, the RGB source is converted to depth and static saliency sources, simultaneously. In the moving object predictor, we propose the multi-source fusion structure. First, the spatial importance of each source is highlighted with the help of the interoceptive spatial attention module (ISAM). Second, the motion-enhanced module (MEM) is designed to generate pure foreground motion attention for improving both static and moving features used in the decoder. Furthermore, we design a feature purification module (FPM) to filter the inter-source incompatible features. By the ISAM, MEM and FPM, the multi-source features are effectively fused. In addition, we put forward an adaptive predictor fusion network (APF) to evaluate the quality of optical flow and fuse the predictions from the static object predictor and the moving object predictor in order to prevent over-reliance on the failed results caused by low-quality optical flow maps. Experiments show that the proposed model outperforms the state-of-the-art methods on three challenging ZVOS benchmarks. And, the static object predictor can precisely predicts a high-quality depth map and static saliency map at the same time.
updated: Sat Mar 18 2023 10:19:29 GMT+0000 (UTC)
published: Sat Mar 18 2023 10:19:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト