arXiv reaDer
表面マッピング推定のための弱いマルチビュー監視
Weak Multi-View Supervision for Surface Mapping Estimation
密な注釈なしでカテゴリ固有の表面マッピングを学習するために、弱教師ありマルチビュー学習アプローチを提案します。人間の顔、車、飛行機などの一般的なカテゴリのインスタンスを指定して、それらのカテゴリの基礎となるサーフェスジオメトリを学習します。従来のアプローチでは、ピクセルレベルの注釈の形式で広範な監視を使用してこの問題を解決しますが、ピクセルレベルのUVおよびメッシュ予測を3D再投影と組み合わせて、整合性サイクルを形成できるという事実を利用します。これらのサイクルを活用した結果、画像ピクセルと自己監視信号として機能するメッシュとの間に密な対応マッピングを確立できます。これにより、全体的な推定値が向上します。私たちのアプローチは、オブジェクトの複数のビューからの情報を活用して、追加の整合性サイクルを確立します。これにより、明示的な注釈を必要とせずに、サーフェスマッピングの理解が向上します。また、インスタンス固有のメッシュを予測するために変形フィールドを使用することを提案します。異なる視点からの類似したオブジェクトインスタンスの複数の画像を提供するデータセットがないため、メッシュの周りの360度のカメラ軌道を使用してShapeNetメッシュをレンダリングすることによって作成されたマルチビューShapeNet Cars andAirplanesデータセットを生成してリリースします。人間の顔のカテゴリでは、既存のデータセットを処理してマルチビュー設定に適合させます。実験的評価を通じて、テスト時に、私たちの方法が平均形状から離れた正確な変動を生成でき、マルチビューの一貫性があり、完全に監視されたアプローチと同等に機能することを示します。
We propose a weakly-supervised multi-view learning approach to learn category-specific surface mapping without dense annotations. We learn the underlying surface geometry of common categories, such as human faces, cars, and airplanes, given instances from those categories. While traditional approaches solve this problem using extensive supervision in the form of pixel-level annotations, we take advantage of the fact that pixel-level UV and mesh predictions can be combined with 3D reprojections to form consistency cycles. As a result of exploiting these cycles, we can establish a dense correspondence mapping between image pixels and the mesh acting as a self-supervisory signal, which in turn helps improve our overall estimates. Our approach leverages information from multiple views of the object to establish additional consistency cycles, thus improving surface mapping understanding without the need for explicit annotations. We also propose the use of deformation fields for predictions of an instance specific mesh. Given the lack of datasets providing multiple images of similar object instances from different viewpoints, we generate and release a multi-view ShapeNet Cars and Airplanes dataset created by rendering ShapeNet meshes using a 360 degree camera trajectory around the mesh. For the human faces category, we process and adapt an existing dataset to a multi-view setup. Through experimental evaluations, we show that, at test time, our method can generate accurate variations away from the mean shape, is multi-view consistent, and performs comparably to fully supervised approaches.
updated: Tue May 04 2021 09:46:26 GMT+0000 (UTC)
published: Tue May 04 2021 09:46:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト