arXiv reaDer
CSC-Unet:セマンティックセグメンテーションのための新しい畳み込みスパースコーディング戦略ベースのニューラルネットワーク
CSC-Unet: A Novel Convolutional Sparse Coding Strategy based Neural Network for Semantic Segmentation
実際の画像シーンは複雑であるため、セマンティックセグメンテーションを正確に実行することは困難な作業です。従来の深層学習に基づく多くのセマンティックセグメンテーション方法では、画像のセマンティック情報と外観情報を十分にキャプチャできなかったため、さまざまなアプリケーションシーンでの一般性と堅牢性が制限されていました。この論文では、前述の欠陥を緩和するために、一般的に使用されている畳み込み演算を多層畳み込みスパースコーディングブロックに再定式化する新しい戦略を提案しました。この戦略は、畳み込み演算を含むセグメンテーションセグメンテーションモデルのセグメンテーションパフォーマンスを大幅に改善するために使用できる可能性があります。アイデアの有効性を証明するために、デモンストレーション用に広く使用されているU-Netモデルを選択し、U-NetをベースにしたCSC-Unetモデルシリーズを設計しました。広範な分析と実験を通じて、多層畳み込みスパースコーディングブロックがセマンティックセグメンテーションモデルの収束を高速化し、画像のセマンティック情報と外観情報をより細かく抽出し、空間詳細情報を復元する機能を向上させることを示す信頼できる証拠を提供しました。最良のCSC-Unetモデルは、シナリオが異なる3つの公開データセットで元のU-Netの結果を大幅に上回っています。つまり、DeepCrackデータセットで87.14%対84.71%、Nucleiデータセットで68.91%対67.09%、53.68%対.CamVidデータセットでそれぞれ48.82%。
It is a challenging task to accurately perform semantic segmentation due to the complexity of real picture scenes. Many semantic segmentation methods based on traditional deep learning insufficiently captured the semantic and appearance information of images, which put limit on their generality and robustness for various application scenes. In this paper, we proposed a novel strategy that reformulated the popularly-used convolution operation to multi-layer convolutional sparse coding block to ease the aforementioned deficiency. This strategy can be possibly used to significantly improve the segmentation performance of any semantic segmentation model that involves convolutional operations. To prove the effectiveness of our idea, we chose the widely-used U-Net model for the demonstration purpose, and we designed CSC-Unet model series based on U-Net. Through extensive analysis and experiments, we provided credible evidence showing that the multi-layer convolutional sparse coding block enables semantic segmentation model to converge faster, can extract finer semantic and appearance information of images, and improve the ability to recover spatial detail information. The best CSC-Unet model significantly outperforms the results of the original U-Net on three public datasets with different scenarios, i.e., 87.14% vs. 84.71% on DeepCrack dataset, 68.91% vs. 67.09% on Nuclei dataset, and 53.68% vs. 48.82% on CamVid dataset, respectively.
updated: Sun Aug 01 2021 09:16:31 GMT+0000 (UTC)
published: Sun Aug 01 2021 09:16:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト