arXiv reaDer
ViewNet: 条件付き生成からの教師なし視点推定
ViewNet: Unsupervised Viewpoint Estimation from Conditional Generation
監視なしで 3D の世界を理解することは、現在、コンピューター ビジョンの主要な課題です。このドメインのタスクのディープ ネットワークを監視するために必要な注釈を大規模に取得するには費用がかかるためです。この論文では、教師なし視点推定の問題に対処します。これを自己教師あり学習タスクとして定式化し、画像再構成がカメラの視点を予測するために必要な監督を提供します。具体的には、トレーニング時に未知の視点からの同じオブジェクトの画像のペアを使用して、一方の画像の視点情報と他方の画像の外観情報を組み合わせることにより、トレーニングを自己監視します。パースペクティブ空間トランスフォーマーを使用すると、効率的な視点学習が可能になり、合成データに対する既存の教師なしアプローチよりも優れており、挑戦的な PASCAL3D+ データセットで競争力のある結果が得られることを実証します。
Understanding the 3D world without supervision is currently a major challenge in computer vision as the annotations required to supervise deep networks for tasks in this domain are expensive to obtain on a large scale. In this paper, we address the problem of unsupervised viewpoint estimation. We formulate this as a self-supervised learning task, where image reconstruction provides the supervision needed to predict the camera viewpoint. Specifically, we make use of pairs of images of the same object at training time, from unknown viewpoints, to self-supervise training by combining the viewpoint information from one image with the appearance information from the other. We demonstrate that using a perspective spatial transformer allows efficient viewpoint learning, outperforming existing unsupervised approaches on synthetic data, and obtains competitive results on the challenging PASCAL3D+ dataset.
updated: Thu Dec 01 2022 11:16:04 GMT+0000 (UTC)
published: Thu Dec 01 2022 11:16:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト