3Dボクセルグリッド生物医学画像の教師なしセグメンテーションの表現学習のタスクを検討します。サブボリューム間の暗黙的な階層関係をキャプチャするモデルが、このタスクにより適していることを示します。そのために、データのサブボリュームに存在する階層関係を明示的にキャプチャするために、双曲線潜在空間を備えたエンコーダ-デコーダアーキテクチャを検討します。新しいジャイロプレーン畳み込み層を備えた3D双曲線変分オートエンコーダを利用して、埋め込み空間から3D画像にマッピングすることを提案します。これらの関係を把握するために、標準のVAE損失に加えて、本質的な自己監視損失を導入します。これにより、おおよその階層が推測され、暗黙的に関連するサブボリュームが埋め込みスペースにより近くマッピングされるようになります。仮説を検証するために、合成データと生物医学データの両方に関する実験を提示します。
We consider the task of representation learning for unsupervised segmentation of 3D voxel-grid biomedical images. We show that models that capture implicit hierarchical relationships between subvolumes are better suited for this task. To that end, we consider encoder-decoder architectures with a hyperbolic latent space, to explicitly capture hierarchical relationships present in subvolumes of the data. We propose utilizing a 3D hyperbolic variational autoencoder with a novel gyroplane convolutional layer to map from the embedding space back to 3D images. To capture these relationships, we introduce an essential self-supervised loss -- in addition to the standard VAE loss -- which infers approximate hierarchies and encourages implicitly related subvolumes to be mapped closer in the embedding space. We present experiments on both synthetic data and biomedical data to validate our hypothesis.