MVMO(マルチビュー、マルチオブジェクトデータセット)を紹介します。これは、10の異なるクラスのランダムに配置されたオブジェクトを含み、上半球の25のカメラ位置からキャプチャされた116,000シーンの合成データセットです。 MVMOは、フォトリアリスティックなパストレース画像レンダリングと、すべてのビューのセマンティックセグメンテーショングラウンドトゥルースで構成されます。既存のマルチビューデータセットとは異なり、MVMOは、カメラ間のベースラインが広く、オブジェクトの密度が高いため、大きな視差、大きなオクルージョン、ビューに依存するオブジェクトの外観が発生します。単一ビューのセマンティックセグメンテーションは、追加の視点から恩恵を受ける可能性のある自己およびオブジェクト間のオクルージョンによって妨げられます。したがって、MVMOはマルチビューセマンティックセグメンテーションとクロスビューセマンティック転送の研究を推進することを期待しています。また、マルチビュー設定の補足情報を活用するために、そのような分野で新しい研究が必要であることを示すベースラインを提供します。
We present MVMO (Multi-View, Multi-Object dataset): a synthetic dataset of 116,000 scenes containing randomly placed objects of 10 distinct classes and captured from 25 camera locations in the upper hemisphere. MVMO comprises photorealistic, path-traced image renders, together with semantic segmentation ground truth for every view. Unlike existing multi-view datasets, MVMO features wide baselines between cameras and high density of objects, which lead to large disparities, heavy occlusions and view-dependent object appearance. Single view semantic segmentation is hindered by self and inter-object occlusions that could benefit from additional viewpoints. Therefore, we expect that MVMO will propel research in multi-view semantic segmentation and cross-view semantic transfer. We also provide baselines that show that new research is needed in such fields to exploit the complementary information of multi-view setups.