OSLO: On-the-Sphere Learning for Omnidirectional images and its application to 360-degree image compression
最先端の2D画像圧縮スキームは、畳み込みニューラルネットワーク(CNN)の能力に依存しています。 CNNは2D画像圧縮の有望な視点を提供しますが、そのようなモデルを全方向性画像に拡張することは簡単ではありません。まず、全方位画像には、現在のCNNモデルでは完全にキャプチャできない特定の空間的および統計的特性があります。第2に、CNNアーキテクチャを構成する基本的な数学演算(変換やサンプリングなど)は、球体上で明確に定義されていません。この論文では、全方向性画像の表現モデルの学習を研究し、球のHEALPix均一サンプリングのプロパティを使用して、全方向性画像の深層学習モデルで使用される数学的ツールを再定義することを提案します。特に、次のことを行います。i)古典的な2D畳み込みの高い表現力と低い複雑さを維持する、球上の新しい畳み込み演算の定義を提案します。 ii)ストライド、反復集約、ピクセルシャッフルなどの標準的なCNN技術を球形ドメインに適合させます。次にiii)全方向性画像圧縮のタスクに新しいフレームワークを適用します。私たちの実験は、提案された球上ソリューションが、正距円筒図法に適用された同様の学習モデルと比較して、ビットレートの13.7%を節約できるより良い圧縮ゲインにつながることを示しています。また、グラフ畳み込みネットワークに基づく学習モデルと比較して、当社のソリューションは、高周波を維持し、圧縮画像のより良い知覚品質を提供できる、より表現力豊かなフィルターをサポートします。このような結果は、提案されたフレームワークの効率を示しています。これにより、他の全方向性ビジョンタスクを球体マニホールドに効果的に実装するための新しい研究の場が開かれます。
State-of-the-art 2D image compression schemes rely on the power of convolutional neural networks (CNNs). Although CNNs offer promising perspectives for 2D image compression, extending such models to omnidirectional images is not straightforward. First, omnidirectional images have specific spatial and statistical properties that can not be fully captured by current CNN models. Second, basic mathematical operations composing a CNN architecture, e.g., translation and sampling, are not well-defined on the sphere. In this paper, we study the learning of representation models for omnidirectional images and propose to use the properties of HEALPix uniform sampling of the sphere to redefine the mathematical tools used in deep learning models for omnidirectional images. In particular, we: i) propose the definition of a new convolution operation on the sphere that keeps the high expressiveness and the low complexity of a classical 2D convolution; ii) adapt standard CNN techniques such as stride, iterative aggregation, and pixel shuffling to the spherical domain; and then iii) apply our new framework to the task of omnidirectional image compression. Our experiments show that our proposed on-the-sphere solution leads to a better compression gain that can save 13.7% of the bit rate compared to similar learned models applied to equirectangular images. Also, compared to learning models based on graph convolutional networks, our solution supports more expressive filters that can preserve high frequencies and provide a better perceptual quality of the compressed images. Such results demonstrate the efficiency of the proposed framework, which opens new research venues for other omnidirectional vision tasks to be effectively implemented on the sphere manifold.
updated: Mon Jul 19 2021 22:14:30 GMT+0000 (UTC)
published: Mon Jul 19 2021 22:14:30 GMT+0000 (UTC)
