センサーのノイズやオクルージョンなどのデータの不確実性により、画像に還元できない曖昧さが生じ、その結果、さまざまではあるがもっともらしい意味論的な仮説が生じる可能性があります。機械学習では、このあいまいさは一般に偶然の不確実性と呼ばれます。潜在密度モデルを利用して、画像セグメンテーションにおけるこの問題に対処できます。最も一般的なアプローチは、確率的 U-Net (PU-Net) です。これは、潜在正規密度を使用して、条件付きデータの対数尤度証拠下限を最適化します。この研究では、PU-Net 潜在空間が非常に不均一であることを実証します。その結果、勾配降下法の有効性が阻害され、モデルは潜在空間サンプルの位置特定に対して非常に敏感になり、結果として予測が不完全になります。これに対処するために、Sinkhorn PU-Net (SPU-Net) を紹介します。これは、Sinkhorn Divergence を使用してすべての潜在次元にわたる均一性を促進し、勾配降下法の更新とモデルの堅牢性を効果的に向上させます。私たちの結果は、これをさまざまな臨床セグメンテーション問題の公開データセットに適用することにより、SPU-Net がハンガリー一致メトリクスでの確率的セグメンテーションに関する以前の潜在変数モデルと比較して最大 11% のパフォーマンス向上を達成することを示しています。この結果は、均一な潜在空間を促進することによって、医療画像セグメンテーションの潜在密度モデリングを大幅に改善できることを示しています。
Data uncertainties, such as sensor noise or occlusions, can introduce irreducible ambiguities in images, which result in varying, yet plausible, semantic hypotheses. In Machine Learning, this ambiguity is commonly referred to as aleatoric uncertainty. Latent density models can be utilized to address this problem in image segmentation. The most popular approach is the Probabilistic U-Net (PU-Net), which uses latent Normal densities to optimize the conditional data log-likelihood Evidence Lower Bound. In this work, we demonstrate that the PU- Net latent space is severely inhomogenous. As a result, the effectiveness of gradient descent is inhibited and the model becomes extremely sensitive to the localization of the latent space samples, resulting in defective predictions. To address this, we present the Sinkhorn PU-Net (SPU-Net), which uses the Sinkhorn Divergence to promote homogeneity across all latent dimensions, effectively improving gradient-descent updates and model robustness. Our results show that by applying this on public datasets of various clinical segmentation problems, the SPU-Net receives up to 11% performance gains compared against preceding latent variable models for probabilistic segmentation on the Hungarian-Matched metric. The results indicate that by encouraging a homogeneous latent space, one can significantly improve latent density modeling for medical image segmentation.