arXiv reaDer
DSC-PoseNet:デュアルスケール整合性による6DoFオブジェクトポーズ推定の学習
DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency
2Dオブジェクトのバウンディングボックスのラベル付けと比較して、特にシーンの深度画像が利用できない場合、人間が3Dオブジェクトのポーズに注釈を付けることは非常に困難です。この論文では、RGB画像と2Dオブジェクト注釈のみが与えられたときにオブジェクトのポーズを効果的に推定できるかどうかを調査します。この目的のために、2Dオブジェクトバウンディングボックスから6DoFオブジェクトポーズを取得するための2段階のポーズ推定フレームワークを提示します。最初のステップでは、フレームワークは、弱く監視された方法で実際のデータと合成データからオブジェクトをセグメント化することを学習し、セグメンテーションマスクはポーズ推定の事前情報として機能します。 2番目のステップでは、差分レンダラーを使用してオブジェクトのポーズを予測するために、デュアルスケールのポーズ推定ネットワーク、つまりDSC-PoseNetを設計します。具体的には、DSC-PoseNetはまず、セグメンテーションマスクとレンダリングされた可視オブジェクトマスクを比較することにより、元の画像スケールでオブジェクトのポーズを予測します。次に、オブジェクト領域のサイズを固定スケールに変更して、ポーズをもう一度推定します。このようにして、大規模な変動を排除し、回転推定に焦点を合わせて、姿勢推定を容易にします。さらに、初期ポーズ推定を利用して疑似グラウンドトゥルースを生成し、DSC-PoseNetを自己監視方式でトレーニングします。これら2つのスケールでの推定結果は、最終的なポーズ推定としてまとめられています。広く使用されているベンチマークでの広範な実験は、私たちの方法が合成データでトレーニングされた最先端のモデルを大幅に上回り、いくつかの完全に監視された方法と同等であることを示しています。
Compared to 2D object bounding-box labeling, it is very difficult for humans to annotate 3D object poses, especially when depth images of scenes are unavailable. This paper investigates whether we can estimate the object poses effectively when only RGB images and 2D object annotations are given. To this end, we present a two-step pose estimation framework to attain 6DoF object poses from 2D object bounding-boxes. In the first step, the framework learns to segment objects from real and synthetic data in a weakly-supervised fashion, and the segmentation masks will act as a prior for pose estimation. In the second step, we design a dual-scale pose estimation network, namely DSC-PoseNet, to predict object poses by employing a differential renderer. To be specific, our DSC-PoseNet firstly predicts object poses in the original image scale by comparing the segmentation masks and the rendered visible object masks. Then, we resize object regions to a fixed scale to estimate poses once again. In this fashion, we eliminate large scale variations and focus on rotation estimation, thus facilitating pose estimation. Moreover, we exploit the initial pose estimation to generate pseudo ground-truth to train our DSC-PoseNet in a self-supervised manner. The estimation results in these two scales are ensembled as our final pose estimation. Extensive experiments on widely-used benchmarks demonstrate that our method outperforms state-of-the-art models trained on synthetic data by a large margin and even is on par with several fully-supervised methods.
updated: Thu Apr 08 2021 10:19:35 GMT+0000 (UTC)
published: Thu Apr 08 2021 10:19:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト