2D画像に基づいて3Dオブジェクトについて推論することは、オブジェクトをさまざまな方向から見ることによって外観が大きく変化するため、困難です。理想的には、モデルはオブジェクトのポーズの変化に対して不変または同変になります。残念ながら、これは通常、2D画像入力では不可能です。これは、面外のオブジェクトの回転の下で画像がどのように変化するかについてのアプリオリモデルがないためです。現在存在する唯一のSO(3)同変モデルは、2D画像ではなく点群入力を必要とします。本論文では、入力画像を二十面体に投影することにより、SO(3)で推論する正二十面体グループ畳み込みに基づく新しいモデルアーキテクチャを提案します。この射影の結果として、モデルはSO(3)の回転とほぼ同変です。このモデルをオブジェクトポーズ推定タスクに適用すると、妥当なベースラインを上回っていることがわかります。
Reasoning about 3D objects based on 2D images is challenging due to large variations in appearance caused by viewing the object from different orientations. Ideally, our model would be invariant or equivariant to changes in object pose. Unfortunately, this is typically not possible with 2D image input because we do not have an a priori model of how the image would change under out-of-plane object rotations. The only SO(3)-equivariant models that currently exist require point cloud input rather than 2D images. In this paper, we propose a novel model architecture based on icosahedral group convolution that reasons in SO(3) by projecting the input image onto an icosahedron. As a result of this projection, the model is approximately equivariant to rotation in SO(3). We apply this model to an object pose estimation task and find that it outperforms reasonable baselines.