360imagesに畳み込みニューラルネットワークを使用すると、平面投影に伴う歪みのために、最適ではないパフォーマンスが発生する可能性があります。 360°画像に回転を適用すると、歪みが悪化します。したがって、畳み込みに基づく多くの研究では、歪みを減らして正確な表現を学習しようとしています。対照的に、360画像の画像分類問題を解決するためにトランスフォーマーアーキテクチャを活用します。 360imagesに提案されたトランスフォーマーを使用することには2つの利点があります。まず、私たちの方法は、球の表面からピクセルをサンプリングすることによる誤った平面投影プロセスを必要としません。第二に、正多面体に基づくサンプリング方法では、特定の回転を面の順列に減らすことができるため、回転の同変誤差が低くなります。実験では、次の2つの側面でネットワークを検証します。まず、非常に均一なサンプリング方法でトランスを使用すると、歪みを減らすことができることを示します。次に、トランスアーキテクチャが特定の回転で回転同変を実現できることを示します。 SPH-MNIST、SPH-CIFAR、およびSUN360データセットを使用して、この方法を他の最先端のアルゴリズムと比較し、この方法が他の方法と競合することを示します。
Using convolutional neural networks for 360images can induce sub-optimal performance due to distortions entailed by a planar projection. The distortion gets deteriorated when a rotation is applied to the 360image. Thus, many researches based on convolutions attempt to reduce the distortions to learn accurate representation. In contrast, we leverage the transformer architecture to solve image classification problems for 360images. Using the proposed transformer for 360images has two advantages. First, our method does not require the erroneous planar projection process by sampling pixels from the sphere surface. Second, our sampling method based on regular polyhedrons makes low rotation equivariance errors, because specific rotations can be reduced to permutations of faces. In experiments, we validate our network on two aspects, as follows. First, we show that using a transformer with highly uniform sampling methods can help reduce the distortion. Second, we demonstrate that the transformer architecture can achieve rotation equivariance on specific rotations. We compare our method to other state-of-the-art algorithms using the SPH-MNIST, SPH-CIFAR, and SUN360 datasets and show that our method is competitive with other methods.