プーリングとアンプーリングは、球面領域での包括的な特徴学習のための階層型球面畳み込みニューラルネットワーク(HS-CNN)を構築する上で2つの重要な操作です。ほとんどの既存のモデルは、ダウンサンプリングベースのプーリングを採用しています。これにより、必然的に情報が失われ、さまざまな球面信号やタスクに適応できなくなります。さらに、プール後に保存された情報は、タスクの望ましい機能を特徴付けるために、その後のプール解除によって適切に復元することはできません。この論文では、画像レベルとピクセルレベルの両方のタスクでより効率的な階層的特徴学習を保証する、LiftHS-CNNと呼ばれるプールおよびアンプール用の適応球面ウェーブレットを学習するためのリフティング構造を備えたHS-CNNの新しいフレームワークを提案します。具体的には、適応球面ウェーブレットは、トレーニング可能なリフティング演算子(つまり、更新および予測演算子)で構成されるリフティング構造で学習されます。この学習可能なリフティング構造を使用すると、信号をそれぞれ低周波数成分と高周波数成分を含む2つのサブバンドに適応的に分割できます。したがって、低周波数サブでより多くの情報を保持することにより、プーリング用のより適切なダウンスケール表現を生成できます。バンド。更新演算子と予測演算子は、グラフベースの注意を払ってパラメーター化され、信号の特性と基礎となるジオメトリを共同で検討します。さらに、学習したウェーブレットによって特定のプロパティが約束され、空間ドメインと周波数ドメインの両方で信号の相関をより有効に活用するための空間周波数ローカリゼーションが保証されることを示します。次に、リフティングベースのプーリングに反転可能なアンプーリング操作を提案します。この操作では、学習したリフティング演算子を使用して逆ウェーブレット変換を実行し、アップスケールされた表現を復元します。さまざまな球形ドメインタスクに関する広範な経験的評価により、提案されたLiftHS-CNNの優位性が検証されます。
Pooling and unpooling are two essential operations in constructing hierarchical spherical convolutional neural networks (HS-CNNs) for comprehensive feature learning in the spherical domain. Most existing models employ downsampling-based pooling, which will inevitably incur information loss and cannot adapt to different spherical signals and tasks. Besides, the preserved information after pooling cannot be well restored by the subsequent unpooling to characterize the desirable features for a task. In this paper, we propose a novel framework of HS-CNNs with a lifting structure to learn adaptive spherical wavelets for pooling and unpooling, dubbed LiftHS-CNN, which ensures a more efficient hierarchical feature learning for both image- and pixel-level tasks. Specifically, adaptive spherical wavelets are learned with a lifting structure that consists of trainable lifting operators (i.e., update and predict operators). With this learnable lifting structure, we can adaptively partition a signal into two sub-bands containing low- and high-frequency components, respectively, and thus generate a better down-scaled representation for pooling by preserving more information in the low-frequency sub-band. The update and predict operators are parameterized with graph-based attention to jointly consider the signal's characteristics and the underlying geometries. We further show that particular properties are promised by the learned wavelets, ensuring the spatial-frequency localization for better exploiting the signal's correlation in both spatial and frequency domains. We then propose an unpooling operation that is invertible to the lifting-based pooling, where an inverse wavelet transform is performed by using the learned lifting operators to restore an up-scaled representation. Extensive empirical evaluations on various spherical domain tasks validate the superiority of the proposed LiftHS-CNN.