半教師ありビデオオブジェクトセグメンテーション(VOS)のタスクを検討します。私たちのアプローチは、視覚的なワーピングを使用して詳細の保存と時間的一貫性に対処することにより、以前のVOS作業の欠点を軽減します。完全なオプティカルフローを使用する以前の作業とは対照的に、VOSデータからフローフィールドを学習する新しい前景をターゲットとした視覚的なワーピングアプローチを導入します。弱く監視された2つの損失を使用して、フレーム間の詳細な動きをキャプチャするようにフローモジュールをトレーニングします。以前の前景オブジェクトマスクをターゲットフレーム内の位置にワープするオブジェクトに焦点を当てたアプローチにより、余分なフロー監視を使用せずに、高速ランタイムで詳細なマスクの改良が可能になります。また、最先端のセグメンテーションネットワークに直接統合することもできます。 DAVIS17およびYouTubeVOSベンチマークでは、追加のデータを使用しない最先端のオフライン方法や、追加のデータを使用する多くのオンライン方法よりも優れています。定性的には、私たちのアプローチが非常に詳細で時間的な一貫性のあるセグメンテーションを生成することも示しています。
We consider the task of semi-supervised video object segmentation (VOS). Our approach mitigates shortcomings in previous VOS work by addressing detail preservation and temporal consistency using visual warping. In contrast to prior work that uses full optical flow, we introduce a new foreground-targeted visual warping approach that learns flow fields from VOS data. We train a flow module to capture detailed motion between frames using two weakly-supervised losses. Our object-focused approach of warping previous foreground object masks to their positions in the target frame enables detailed mask refinement with fast runtimes without using extra flow supervision. It can also be integrated directly into state-of-the-art segmentation networks. On the DAVIS17 and YouTubeVOS benchmarks, we outperform state-of-the-art offline methods that do not use extra data, as well as many online methods that use extra data. Qualitatively, we also show our approach produces segmentations with high detail and temporal consistency.