この論文では、セマンティックセグメンテーション問題を解決するためのカプセルベースのニューラルネットワークモデルを提案します。カプセルレイヤーで利用可能な抽出可能な部分全体の依存関係を利用することにより、再帰的なレイヤーごとの手順を通じて、個々のカプセルのクラスラベルの確率を導き出します。この手順をトレースバックパイプラインとしてモデル化し、エンドツーエンドのセグメンテーションネットワークを構築するための中心的な部分としてそれを採用します。提案されたフレームワークでは、画像レベルのクラスラベルとオブジェクトの境界が明示的に共同で求められます。これにより、最新の完全畳み込みネットワーク(FCN)ソリューションに比べて大きな利点がもたらされます。部分全体の情報を抽出する機能により、トレースバックパイプラインは、解釈可能なニューラルネットワークを設計するためのビルディングブロックとして潜在的に利用できます。変更されたMNISTとニューロイメージで行われた実験は、我々のモデルが主要なFCNバリアントと比較してセグメンテーションパフォーマンスを大幅に向上させることを示しています。
In this paper, we propose a capsule-based neural network model to solve the semantic segmentation problem. By taking advantage of the extractable part-whole dependencies available in capsule layers, we derive the probabilities of the class labels for individual capsules through a recursive, layer-by-layer procedure. We model this procedure as a traceback pipeline and take it as a central piece to build an end-to-end segmentation network. Under the proposed framework, image-level class labels and object boundaries are jointly sought in an explicit manner, which poses a significant advantage over the state-of-the-art fully convolutional network (FCN) solutions. With the capability to extracted part-whole information, our traceback pipeline can potentially be utilized as the building blocks to design interpretable neural networks. Experiments conducted on modified MNIST and neuroimages demonstrate that our model considerably enhance the segmentation performance compared to the leading FCN variants.