顕著なモーションセグメンテーションの既存のアプローチでは、幾何学的な手がかりを明示的に学習することができず、多くの場合、顕著な静的オブジェクトの誤検出を与えます。このような欠点を回避するために、マルチビューの幾何学的制約を活用しています。海のような非剛体の背景を処理するために、モーションと外観ベースの機能間の堅牢な融合メカニズムも提案します。ビデオのすべてのピクセルをカバーする密な軌跡を見つけ、背景と前景の領域を区別するための軌跡ベースのエピポーラ距離を提案します。軌道エピポーラ距離はデータに依存せず、画像間のいくつかの特徴の対応があれば容易に計算できます。エピポーラ距離とオプティカルフローを組み合わせることで、強力なモーションネットワークを学習できることを示します。ネットワークがこれらの機能の両方を活用できるようにするために、単純なメカニズムを提案します。これを入力ドロップアウトと呼びます。モーションのみのネットワークを比較すると、DAVIS-2016データセットの以前の最新技術よりも、平均IoUスコアで5.2%優れています。入力ドロップアウトメカニズムを使用して、モーションネットワークと外観ネットワークを堅牢に融合することにより、DAVIS-2016、2017、およびSegtrackv2データセットで以前の方法よりも優れたパフォーマンスを発揮します。
The existing approaches for salient motion segmentation are unable to explicitly learn geometric cues and often give false detections on prominent static objects. We exploit multiview geometric constraints to avoid such shortcomings. To handle the nonrigid background like a sea, we also propose a robust fusion mechanism between motion and appearance-based features. We find dense trajectories, covering every pixel in the video, and propose trajectory-based epipolar distances to distinguish between background and foreground regions. Trajectory epipolar distances are data-independent and can be readily computed given a few features' correspondences between the images. We show that by combining epipolar distances with optical flow, a powerful motion network can be learned. Enabling the network to leverage both of these features, we propose a simple mechanism, we call input-dropout. Comparing the motion-only networks, we outperform the previous state of the art on DAVIS-2016 dataset by 5.2% in the mean IoU score. By robustly fusing our motion network with an appearance network using the input-dropout mechanism, we also outperform the previous methods on DAVIS-2016, 2017 and Segtrackv2 dataset.