前景オブジェクトの自己監視検出とセグメンテーションは、注釈付きのトレーニングデータなしで正確さを目指します。ただし、既存のアプローチは、主に外観と動きに関する制限的な仮定に依存しています。動的なアクティビティとカメラの動きがあるシーンの場合、ボクセルグリッドでの粗い3Dローカリゼーションときめ細かいオフセット回帰により、トレーニング中に幾何学的制約がマルチビューの一貫性の形で埋め込まれるマルチカメラフレームワークを提案します。このようにして、複数のビューにわたる提案の同時分布を学習します。推論時に、私たちの方法は単一のRGB画像で動作します。標準のベンチマークの画像と視覚的に異なる画像と、従来のHuman3.6Mデータセットの画像の両方で、最先端の手法を上回っています。
Self-supervised detection and segmentation of foreground objects aims for accuracy without annotated training data. However, existing approaches predominantly rely on restrictive assumptions on appearance and motion. For scenes with dynamic activities and camera motion, we propose a multi-camera framework in which geometric constraints are embedded in the form of multi-view consistency during training via coarse 3D localization in a voxel grid and fine-grained offset regression. In this manner, we learn a joint distribution of proposals over multiple views. At inference time, our method operates on single RGB images. We outperform state-of-the-art techniques both on images that visually depart from those of standard benchmarks and on those of the classical Human3.6M dataset.