arXiv reaDer
MUNet:モーションの不確実性を意識した半教師ありビデオオブジェクトのセグメンテーション
MUNet: Motion Uncertainty-aware Semi-supervised Video Object Segmentation
半教師ありビデオオブジェクトセグメンテーション(VOS)のタスクは大幅に進歩し、最新のパフォーマンスは高密度マッチングベースの方法によって作成されました。最近の方法では、時空間メモリ(STM)ネットワークを活用し、利用可能なすべてのソースから関連情報を取得する方法を学習します。オブジェクトマスクを使用した過去のフレームは外部メモリを形成し、クエリがメモリ内のマスク情報を使用してセグメント化されると、現在のフレームが形成されます。 。ただし、メモリを形成してマッチングを行う場合、これらの方法は、動き情報を無視して外観情報のみを利用します。この論文では、モーション情報の返送を提唱し、半教師ありVOS用のモーション不確実性認識フレームワーク(MUNet)を提案します。まず、相関コスト量に基づいて、隣接するフレーム間の空間的対応を学習する暗黙的な方法を提案します。密な対応を構築する際のオクルージョンとテクスチャのない領域の困難なケースを処理するために、密なマッチングに不確実性を組み込み、モーションの不確実性を意識した特徴表現を実現します。次に、モーション機能とセマンティック機能を効果的に融合するためのモーション対応空間注意モジュールを紹介します。挑戦的なベンチマークに関する包括的な実験は、少量のデータを使用し、それを強力なモーション情報と組み合わせると、パフォーマンスが大幅に向上することを示しています。トレーニングにDAVIS17のみを使用して76.5%J \&Fを達成します。これは、低データプロトコルでのSOTAメソッドを大幅に上回っています。コードがリリースされます。
The task of semi-supervised video object segmentation (VOS) has been greatly advanced and state-of-the-art performance has been made by dense matching-based methods. The recent methods leverage space-time memory (STM) networks and learn to retrieve relevant information from all available sources, where the past frames with object masks form an external memory and the current frame as the query is segmented using the mask information in the memory. However, when forming the memory and performing matching, these methods only exploit the appearance information while ignoring the motion information. In this paper, we advocate the return of the motion information and propose a motion uncertainty-aware framework (MUNet) for semi-supervised VOS. First, we propose an implicit method to learn the spatial correspondences between neighboring frames, building upon a correlation cost volume. To handle the challenging cases of occlusion and textureless regions during constructing dense correspondences, we incorporate the uncertainty in dense matching and achieve motion uncertainty-aware feature representation. Second, we introduce a motion-aware spatial attention module to effectively fuse the motion feature with the semantic feature. Comprehensive experiments on challenging benchmarks show that using a small amount of data and combining it with powerful motion information can bring a significant performance boost. We achieve 76.5% J \& F only using DAVIS17 for training, which significantly outperforms the SOTA methods under the low-data protocol. The code will be released.
updated: Mon Nov 29 2021 16:01:28 GMT+0000 (UTC)
published: Mon Nov 29 2021 16:01:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト