2D 画像に基づいて 3D オブジェクトを推論することは、オブジェクトをさまざまな方向から見ることによって外観が変化するため、困難です。オブジェクト分類などのタスクは 3D 回転に対して不変であり、姿勢推定などのその他のタスクは同変です。ただし、モデルの制約として等分散を課すことは、通常、2D 画像入力では不可能です。これは、面外のオブジェクトの回転で画像がどのように変化するかについてのアプリオリ モデルがないためです。現在存在する唯一の SO(3) 等変モデルは、2D 画像ではなく点群またはボクセルの入力を必要とします。この論文では、入力画像の正二十面体への射影を学習することによって SO(3) を推論する正二十面体群畳み込みに基づく新しいアーキテクチャを提案します。結果のモデルは、SO(3) の回転とほぼ同じです。このモデルをオブジェクトの姿勢推定と形状分類タスクに適用し、合理的なベースラインよりも優れていることがわかりました。プロジェクトのウェブサイト: https://dmklee.github.io/image2icosahedral
Reasoning about 3D objects based on 2D images is challenging due to variations in appearance caused by viewing the object from different orientations. Tasks such as object classification are invariant to 3D rotations and other such as pose estimation are equivariant. However, imposing equivariance as a model constraint is typically not possible with 2D image input because we do not have an a priori model of how the image changes under out-of-plane object rotations. The only SO(3)-equivariant models that currently exist require point cloud or voxel input rather than 2D images. In this paper, we propose a novel architecture based on icosahedral group convolutions that reasons in SO(3) by learning a projection of the input image onto an icosahedron. The resulting model is approximately equivariant to rotation in SO(3). We apply this model to object pose estimation and shape classification tasks and find that it outperforms reasonable baselines. Project website: https://dmklee.github.io/image2icosahedral