Learning Direct Optimization for Scene Understanding
 入力画像xを記述する潜在変数モデルを改良するための学習直接最適化(LiDO)メソッドを開発します。私たちの目標は、シーングラフの潜在変数z(オブジェクトの外観、カメラの位置など)を持つ解釈可能な3Dコンピューターグラフィックスモデルで単一の画像xを説明することです。現在のzの推定値が与えられると、画像xと比較できる画像g(z)の予測をレンダリングできます。次に進むための標準的な方法は、2つの間のエラーE(x、g(z))を測定し、オプティマイザを使用してエラーを最小化することです。ただし、どのエラーメジャーEが、整列不良のオブジェクト、オクルージョン、テクスチャなどの問題に同時に対処するのに最も効果的であるかは不明です。対照的に、LiDOアプローチは、最小化するのではなく、更新ネットワークを直接予測して修正を予測するように予測ネットワークをトレーニングします。 zに関する誤差。 LiDOメソッドはエラーランドスケープで検索を実行する必要がなく、エラーベースの競合他社よりも優れたソリューションを生成し、データとフィットされたシーンモデル間の不一致を処理できるため、実験はLiDOメソッドが急速に収束することを示しています。 LiDOを現実的な合成データセットに適用し、メソッドが実際の画像でもうまく機能することを示しています。
We develop a Learning Direct Optimization (LiDO) method for the refinement of a latent variable model that describes input image x. Our goal is to explain a single image x with an interpretable 3D computer graphics model having scene graph latent variables z (such as object appearance, camera position). Given a current estimate of z we can render a prediction of the image g(z), which can be compared to the image x. The standard way to proceed is then to measure the error E(x, g(z)) between the two, and use an optimizer to minimize the error. However, it is unknown which error measure E would be most effective for simultaneously addressing issues such as misaligned objects, occlusions, textures, etc. In contrast, the LiDO approach trains a Prediction Network to predict an update directly to correct z, rather than minimizing the error with respect to z. Experiments show that our LiDO method converges rapidly as it does not need to perform a search on the error landscape, produces better solutions than error-based competitors, and is able to handle the mismatch between the data and the fitted scene model. We apply LiDO to a realistic synthetic dataset, and show that the method also transfers to work well with real images.
updated: Thu May 07 2020 13:43:49 GMT+0000 (UTC)
published: Tue Dec 18 2018 17:46:13 GMT+0000 (UTC)
