教師なしマルチオブジェクト セグメンテーションにおける最近の研究では、次の画像なしで動きを予測する際の固有のあいまいさにもかかわらず、単一の画像から動きを予測することで素晴らしい結果が示されています。一方、シーンの構造とその中で動くオブジェクトを考慮することにより、画像に対して可能な動きのセットを低次元空間に制限することができます。単一の画像からフローを再構成する際のあいまいさを取り除くために、ピクセルごとのジオメトリとオブジェクトの動きをモデル化することを提案します。具体的には、画像を一貫して動く領域に分割し、深度を使用して各領域で観察された流れを最もよく説明する流れのベースを構築します。シーン構造とオブジェクトの動きをモデル化することで、合成データセットと現実世界のデータセットで教師なしマルチオブジェクト セグメンテーションで最先端の結果を達成します。予測深度マップの評価では、単眼の深度推定における信頼性の高いパフォーマンスが示されています。
Recent work in unsupervised multi-object segmentation shows impressive results by predicting motion from a single image despite the inherent ambiguity in predicting motion without the next image. On the other hand, the set of possible motions for an image can be constrained to a low-dimensional space by considering the scene structure and moving objects in it. We propose to model pixel-wise geometry and object motion to remove ambiguity in reconstructing flow from a single image. Specifically, we divide the image into coherently moving regions and use depth to construct flow bases that best explain the observed flow in each region. We achieve state-of-the-art results in unsupervised multi-object segmentation on synthetic and real-world datasets by modeling the scene structure and object motion. Our evaluation of the predicted depth maps shows reliable performance in monocular depth estimation.