Multiview Aggregation for Learning Category-Specific Shape Reconstruction
 以前に観測されていないオブジェクトインスタンスの可変数のRGBビューからカテゴリ固有の3D形状再構成を学習する問題を調査します。マルチビュー形状再構築のほとんどのアプローチは、まばらな形状表現で動作するか、または固定数のビューを想定しています。密な3D形状を推定し、複数のさまざまな数の入力ビューにわたって形状を集約できる方法を示します。オブジェクトインスタンスの単一の入力ビューが与えられた場合、可視オブジェクトの表面の密な形状と、可視表面によって遮られる視線の後ろの表面をエンコードする表現を提案します。複数の入力ビューが使用可能な場合、形状表現は、安価な結合操作を使用して単一の3D形状に集約されるように設計されています。可変数のビュー(1つ以上)からこの表現を予測することを学習するために、2D CNNをトレーニングします。さらに、機能レベルで順序に依存しないビュー情報の交換を促進する順列同変レイヤーを使用して、マルチビュー情報を集約します。実験により、より多くのビューが追加されるにつれて品質が向上するオブジェクトの高密度の3D再構築を作成できることが示されています。
We investigate the problem of learning category-specific 3D shape reconstruction from a variable number of RGB views of previously unobserved object instances. Most approaches for multiview shape reconstruction operate on sparse shape representations, or assume a fixed number of views. We present a method that can estimate dense 3D shape, and aggregate shape across multiple and varying number of input views. Given a single input view of an object instance, we propose a representation that encodes the dense shape of the visible object surface as well as the surface behind line of sight occluded by the visible surface. When multiple input views are available, the shape representation is designed to be aggregated into a single 3D shape using an inexpensive union operation. We train a 2D CNN to learn to predict this representation from a variable number of views (1 or more). We further aggregate multiview information by using permutation equivariant layers that promote order-agnostic view information exchange at the feature level. Experiments show that our approach is able to produce dense 3D reconstructions of objects that improve in quality as more views are added.
updated: Sun Dec 08 2019 22:01:21 GMT+0000 (UTC)
published: Mon Jul 01 2019 22:01:37 GMT+0000 (UTC)
