arXiv reaDer
Shape-Net: 追加の入力として 3D 形状を使用した知識蒸留を使用した、オクルージョンにロバストなパノラマ画像からの部屋のレイアウト推定
Shape-Net: Room Layout Estimation from Panoramic Images Robust to Occlusion using Knowledge Distillation with 3D Shapes as Additional Inputs
単発のパノラマ画像から部屋のレイアウトを推定することは、仮想/拡張現実や家具のレイアウト シミュレーションにおいて重要です。これには、コーナーや境界の位置などの 3 次元 (3D) ジオメトリの識別と、3D 再構築の実行が含まれます。ただし、オクルージョンは部屋のレイアウトの見積もりに悪影響を与える可能性がある一般的な問題であり、これはこれまで十分に研究されていません。画像データセットから建物の図面やコーナーの座標として部屋の 3D 形状情報を取得することができるため、2D パノラマ情報と 3D 情報の両方をモデルに提供して、オクルージョンを効果的に処理することを提案します。ただし、3D 情報をモデルに入力するだけでは、遮蔽領域の形状情報を利用するには不十分です。したがって、3D情報を効果的に使用するために、3D Intersection over Union(IoU)損失を導入してモデルを改善します。場合によっては、図面がない場合や、施工が図面と異なる場合があります。このような実際のケースを考慮して、画像と 3D 情報の両方でトレーニングされたモデルから、画像のみを入力として取るモデルに知識を抽出する方法を提案します。 Shape-Net と呼ばれる提案されたモデルは、ベンチマーク データセットで最先端 (SOTA) のパフォーマンスを達成します。また、オクルージョンのある画像の精度が既存モデルに比べて大幅に向上し、オクルージョンへの対応に有効であることを確認しました。
Estimating the layout of a room from a single-shot panoramic image is important in virtual/augmented reality and furniture layout simulation. This involves identifying three-dimensional (3D) geometry, such as the location of corners and boundaries, and performing 3D reconstruction. However, occlusion is a common issue that can negatively impact room layout estimation, and this has not been thoroughly studied to date. It is possible to obtain 3D shape information of rooms as drawings of buildings and coordinates of corners from image datasets, thus we propose providing both 2D panoramic and 3D information to a model to effectively deal with occlusion. However, simply feeding 3D information to a model is not sufficient to utilize the shape information for an occluded area. Therefore, we improve the model by introducing 3D Intersection over Union (IoU) loss to effectively use 3D information. In some cases, drawings are not available or the construction deviates from a drawing. Considering such practical cases, we propose a method for distilling knowledge from a model trained with both images and 3D information to a model that takes only images as input. The proposed model, which is called Shape-Net, achieves state-of-the-art (SOTA) performance on benchmark datasets. We also confirmed its effectiveness in dealing with occlusion through significantly improved accuracy on images with occlusion compared with existing models.
updated: Tue Apr 25 2023 07:45:43 GMT+0000 (UTC)
published: Tue Apr 25 2023 07:45:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト