この論文では、2D画像からの6-DOF 3Dオブジェクト検出のタスクを解決するために着手しました。ここで、唯一の監視は、私たちが見つけようとしているオブジェクトの幾何学的表現です。そうすることで、6-DOFラベル(つまり、位置、向きなど)の必要性がなくなり、ネットワークをラベルのない画像で自己監視方式でトレーニングできるようになります。これは、微分可能なレンダラーに渡される明示的なシーンのパラメーター化を学習するニューラルネットワークを介して実現されます。微分可能レンダリングを使用した3Dシーン構造の監視のための合成による分析のような損失が、ほとんどの場合、視覚的なあいまいさの極小値にとらわれるため、実用的でない理由を分析します。これは、追加のネットワークを使用して最適化自体を操作し、パラメーター空間全体を探索する、つまり好奇心をそそる、したがってこれらのあいまいさを解決し、実行可能な最小値を見つける、新しい形式のトレーニングによって克服できます。
In this paper we set out to solve the task of 6-DOF 3D object detection from 2D images, where the only supervision is a geometric representation of the objects we aim to find. In doing so, we remove the need for 6-DOF labels (i.e., position, orientation etc.), allowing our network to be trained on unlabeled images in a self-supervised manner. We achieve this through a neural network which learns an explicit scene parameterization which is subsequently passed into a differentiable renderer. We analyze why analysis-by-synthesis-like losses for supervision of 3D scene structure using differentiable rendering is not practical, as it almost always gets stuck in local minima of visual ambiguities. This can be overcome by a novel form of training, where an additional network is employed to steer the optimization itself to explore the entire parameter space i.e., to be curious, and hence, to resolve those ambiguities and find workable minima.