arXiv reaDer
マルチオブジェクト医療画像セグメンテーションのための意味認識対照学習
Semantic-Aware Contrastive Learning for Multi-object Medical Image Segmentation
医療画像のセグメンテーション、つまりボクセルごとのセマンティックマスクの計算は、ボクセルレベルのセマンティックマスクを計算するための基本的でありながら困難なタスクです。大規模な臨床コホート全体でこのタスクを実行するエンコーダーデコーダーニューラルネットワークの能力を高めるために、対照学習は、モデルの初期化を安定させ、ラベルなしでエンコーダーを強化する機会を提供します。ただし、複数のターゲットオブジェクト(意味の意味が異なる)が1つの画像に存在する可能性があるため、従来の対照的な学習方法を一般的な「画像レベルの分類」から「ピクセルレベルのセグメンテーション」に適応させる際に問題が発生します。この論文では、マルチオブジェクトセマンティックセグメンテーションを進めるために注意マスクを活用する単純なセマンティック認識対照学習アプローチを提案します。簡単に言うと、従来の画像レベルの埋め込みではなく、さまざまなセマンティックオブジェクトをさまざまなクラスターに埋め込みます。社内データとMICCAIChallenge 2015 BTCVデータセットの両方を使用して、多臓器医療画像セグメンテーションタスクで提案された方法を評価します。現在の最先端のトレーニング戦略と比較して、提案されたパイプラインは、両方の医療画像セグメンテーションコホートのダイススコアでそれぞれ5.53%と6.09%の大幅な改善をもたらします(p値<0.01)。提案された方法の性能は、PASCAL VOC 2012データセットを介して自然画像でさらに評価され、mIoUで2.75%の大幅な改善を達成します(p値<0.01)。
Medical image segmentation, or computing voxelwise semantic masks, is a fundamental yet challenging task to compute a voxel-level semantic mask. To increase the ability of encoder-decoder neural networks to perform this task across large clinical cohorts, contrastive learning provides an opportunity to stabilize model initialization and enhance encoders without labels. However, multiple target objects (with different semantic meanings) may exist in a single image, which poses a problem for adapting traditional contrastive learning methods from prevalent 'image-level classification' to 'pixel-level segmentation'. In this paper, we propose a simple semantic-aware contrastive learning approach leveraging attention masks to advance multi-object semantic segmentation. Briefly, we embed different semantic objects to different clusters rather than the traditional image-level embeddings. We evaluate our proposed method on a multi-organ medical image segmentation task with both in-house data and MICCAI Challenge 2015 BTCV datasets. Compared with current state-of-the-art training strategies, our proposed pipeline yields a substantial improvement of 5.53% and 6.09% on Dice score for both medical image segmentation cohorts respectively (p-value<0.01). The performance of the proposed method is further assessed on natural images via the PASCAL VOC 2012 dataset, and achieves a substantial improvement of 2.75% on mIoU (p-value<0.01).
updated: Mon Nov 08 2021 22:16:10 GMT+0000 (UTC)
published: Thu Jun 03 2021 05:01:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト