arXiv reaDer
TSANET: 教師なしビデオ オブジェクト セグメンテーションのための時間的およびスケール アラインメント
TSANET: Temporal and Scale Alignment for Unsupervised Video Object Segmentation
教師なしビデオ オブジェクト セグメンテーション (UVOS) は、ビデオ内の目立つオブジェクトを手動のガイダンスなしでセグメント化するという困難なタスクを指します。言い換えると、ネットワークは、事前の知識がなくても、RGB フレームのシーケンスでターゲット オブジェクトの正確な領域を検出します。最近の作品では、UVOS の 2 つのアプローチが議論されており、外観と外観モーション ベースの方法に分けることができます。外観ベースの方法では、フレーム間の相関情報を利用して、シーケンスによく現れるターゲット オブジェクトをキャプチャします。しかし、これらの方法は、ランダムにペアになったフレーム間の相関情報を利用するため、対象物の動きを考慮していません。一方、アピアランス モーション ベースの方法は、RGB フレームのアピアランス機能をオプティカル フローのモーション機能と融合します。顕著なオブジェクトは通常、シーケンス内で独特の動きを示すため、モーション キューは有用な情報を提供します。ただし、これらのアプローチには、オプティカル フローへの依存が支配的であるという制限があります。この論文では、時間と規模の両方の観点から、前述の 2 つのアプローチの制限に対処できる UVOS の新しいフレームワークを提案します。テンポラル アラインメント フュージョンは、隣接するフレームの顕著性情報をターゲット フレームに合わせて、隣接するフレームの情報を活用します。 Scale Alignment Decoder は、暗黙的なニューラル表現を使用した連続マッピングを介して、さまざまにスケーリングされた特徴マップを集約することにより、ターゲット オブジェクト マスクを正確に予測します。パブリック ベンチマーク データセット、DAVIS 2016 および FBMS に関する実験結果を提示し、この方法の有効性を示します。さらに、DAVIS 2016 では最先端の方法よりも優れています。
Unsupervised Video Object Segmentation (UVOS) refers to the challenging task of segmenting the prominent object in videos without manual guidance. In other words, the network detects the accurate region of the target object in a sequence of RGB frames without prior knowledge. In recent works, two approaches for UVOS have been discussed that can be divided into: appearance and appearance-motion based methods. Appearance based methods utilize the correlation information of inter-frames to capture target object that commonly appears in a sequence. However, these methods does not consider the motion of target object due to exploit the correlation information between randomly paired frames. Appearance-motion based methods, on the other hand, fuse the appearance features from RGB frames with the motion features from optical flow. Motion cue provides useful information since salient objects typically show distinctive motion in a sequence. However, these approaches have the limitation that the dependency on optical flow is dominant. In this paper, we propose a novel framework for UVOS that can address aforementioned limitations of two approaches in terms of both time and scale. Temporal Alignment Fusion aligns the saliency information of adjacent frames with the target frame to leverage the information of adjacent frames. Scale Alignment Decoder predicts the target object mask precisely by aggregating differently scaled feature maps via continuous mapping with implicit neural representation. We present experimental results on public benchmark datasets, DAVIS 2016 and FBMS, which demonstrate the effectiveness of our method. Furthermore, we outperform the state-of-the-art methods on DAVIS 2016.
updated: Wed Mar 08 2023 04:59:43 GMT+0000 (UTC)
published: Wed Mar 08 2023 04:59:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト