arXiv reaDer
あいまいな深さの画像からの多様なもっともらしい形状の完成
Diverse Plausible Shape Completions from Ambiguous Depth Images
単一の2.5D深度画像から多様でもっともらしい3D再構成を生成するためのネットワークアーキテクチャであるPSSNetを提案します。既存の方法では、複数の形状が観察結果と一致している場合でも、単一の形状にわずかな変動しか生じない傾向があります。多様性を得るために、トレーニング中にサイド情報として学習された形状境界ボックス機能を提供することにより、変分オートエンコーダーを変更します。これらの機能はトレーニング中に既知であるため、エンコーダーに教師あり損失を追加し、デコーダーにノイズのない値を追加することができます。評価するために、ネットワークから一連の完了をサンプリングし、各テスト観測に対して一連のもっともらしい形状一致を構築し、一連の形状に対して定義されたもっともらしい多様性メトリックを使用して比較します。 Shapenetマグカップと部分的に遮蔽されたYCBオブジェクトを使用して実験を行い、あいまいさがほとんどないデータセットでこの方法が同等に機能し、多くの形状が観察された深度画像に適切に適合する場合、既存の方法よりも優れていることを確認します。物理的なロボットでPSSNetを使用して、オクルージョンやクラッターでオブジェクトをつかむ場合の1つの使用法を示します。
We propose PSSNet, a network architecture for generating diverse plausible 3D reconstructions from a single 2.5D depth image. Existing methods tend to produce only small variations on a single shape, even when multiple shapes are consistent with an observation. To obtain diversity we alter a Variational Auto Encoder by providing a learned shape bounding box feature as side information during training. Since these features are known during training, we are able to add a supervised loss to the encoder and noiseless values to the decoder. To evaluate, we sample a set of completions from a network, construct a set of plausible shape matches for each test observation, and compare using our plausible diversity metric defined over sets of shapes. We perform experiments using Shapenet mugs and partially-occluded YCB objects and find that our method performs comparably in datasets with little ambiguity, and outperforms existing methods when many shapes plausibly fit an observed depth image. We demonstrate one use for PSSNet on a physical robot when grasping objects in occlusion and clutter.
updated: Wed Nov 18 2020 16:42:51 GMT+0000 (UTC)
published: Wed Nov 18 2020 16:42:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト