組織病理学的診断は、核異常(≈O(0.1μm))から細胞構造(≈O(10μm))、全体的な組織構造(\ gtrapprox O(1mm))に至るまで、幅広いスケールの情報を同時に統合することに依存しています。 。人間の病理学者がマルチスケール情報を組み合わせる方法を明示的に模倣するために、ディープフュージョンを備えたマルチエンコーダFCNのファミリを紹介します。標準のエンコーダ-デコーダネットワークに簡単に含めることができる、空間関係を維持する方法で、異なる空間スケールを持つモデルパスをマージするための単純なブロックを提示します。さらに、グローバルコンテキストを組み込むための代替手段として、コンテキスト分類ゲートブロックが提案されています。私たちの実験は、最近の課題の3つの公開されている全スライド画像(PAIP 2019、BACH 2020、CAMELYON 2016)で実行されました。マルチスケールアーキテクチャは、ベースラインのシングルスケールU-Netを一貫して大幅に上回っています。それらは、ローカルおよびグローバルのコンテキスト、特に両方の組み合わせから恩恵を受けます。異なるスケールのフィーチャマップが融合されている場合、空間的な関係を維持する方法で融合することが有益であることがわかりました。コンテキスト分類の損失による詳細なガイダンスは、低い計算コストでモデルトレーニングを改善するように見えました。すべてのマルチスケールモデルでは、異なる画像スケールでトレーニングされた個々のU-Netのアンサンブルと比較して、GPUメモリフットプリントが削減されました。追加のパス融合が低計算コストで可能であることが示され、さらに体系的でタスク固有のアーキテクチャ最適化の可能性が開かれました。調査結果は、大きく異なる空間スケールの広範な統合によって深い組織病理学的診断を改善するために、人間に触発された、エンドツーエンドのトレーニング可能なマルチスケールマルチエンコーダFCNの提示されたファミリーの可能性を示しています。
Histopathologic diagnosis relies on simultaneous integration of information from a broad range of scales, ranging from nuclear aberrations (≈O(0.1μm)) through cellular structures (≈O(10μm)) to the global tissue architecture (\gtrapprox O(1mm)). To explicitly mimic how human pathologists combine multi-scale information, we introduce a family of multi-encoder FCNs with deep fusion. We present a simple block for merging model paths with differing spatial scales in a spatial relationship-preserving fashion, which can readily be included in standard encoder-decoder networks. Additionally, a context classification gate block is proposed as an alternative for the incorporation of global context. Our experiments were performed on three publicly available whole-slide images of recent challenges (PAIP 2019, BACH 2020, CAMELYON 2016). The multi-scale architectures consistently outperformed the baseline single-scale U-Nets by a large margin. They benefit from local as well as global context and particularly a combination of both. If feature maps from different scales are fused, doing so in a manner preserving spatial relationships was found to be beneficial. Deep guidance by a context classification loss appeared to improve model training at low computational costs. All multi-scale models had a reduced GPU memory footprint compared to ensembles of individual U-Nets trained on different image scales. Additional path fusions were shown to be possible at low computational cost, opening up possibilities for further, systematic and task-specific architecture optimization. The findings demonstrate the potential of the presented family of human-inspired, end-to-end trainable, multi-scale multi-encoder FCNs to improve deep histopathologic diagnosis by extensive integration of largely different spatial scales.