NOLBO、2Dシングルショットからの3Dマルチオブジェクトの変分観測モデル推定を提示します。以前の確率的なインスタンスレベルの理解では、主にマルチオブジェクトのシングルショットではなく、単一オブジェクトの画像を考慮していました。オブジェクトとシーン全体の関係が焦点から外れています。各観測の客観性もモデルにほとんど参加しません。したがって、シーンレベルの3Dマルチオブジェクト理解のベイズ観測モデルを近似する方法を提案します。変分オートエンコーダー(VAE)を活用することで、シーン全体から潜在変数を推定します。潜在変数は、扱いやすい分布に従い、同時に3Dフルシェイプとポーズを意味します。オブジェクト指向のデータ関連付けと確率的同時ローカリゼーションおよびマッピング(SLAM)を実行するには、オブジェクト指向の機能を潜在変数で置き換えることにより、観測モデルを確率的推論に簡単に採用できます。
We present NOLBO, a variational observation model estimation for 3D multi-object from 2D single shot. Previous probabilistic instance-level understandings mainly consider the single-object image, not single shot with multi-object; relations between objects and the entire scene are out of their focus. The objectness of each observation also hardly join their model. Therefore, we propose a method to approximate the Bayesian observation model of scene-level 3D multi-object understanding. By exploiting variational auto-encoder (VAE), we estimate latent variables from the entire scene, which follow tractable distributions and concurrently imply 3D full shape and pose. To perform object-oriented data association and probabilistic simultaneous localization and mapping (SLAM), our observation models can easily be adopted to probabilistic inference by replacing object-oriented features with latent variables.