ドメインシフトは組織病理学における重要な問題です。メディカルセンターとスキャナーの間では、スライド全体の画像のデータ特性に大きな違いがあり、見えないデータに対するディープラーニングの一般化を困難にします。問題のより良い理解を得るために、H&E染色された全スライド画像の腫瘍分類のために訓練された畳み込みニューラルネットワークに関する研究を提示します。増強戦略と正規化戦略がパフォーマンスと学習した表現にどのように影響するか、そして訓練されたモデルがどのような機能に反応するかを分析します。最も中心的に、特定のモデルの学習表現のコンテキストでドメイン間の距離を評価するための新しい尺度を提示します。この測定値は、モデルがドメインの変動に対してどの程度敏感であるかを明らかにし、モデルの一般化に問題がある新しいデータを検出するために使用できます。結果は、学習がトレーニングデータの準備によってどのように大きく影響されるか、および分類を行うために使用される潜在表現が、特に拡張または正規化なしのトレーニングの場合、データ分布の変化に敏感であることを示します。
Domain shift is a significant problem in histopathology. There can be large differences in data characteristics of whole-slide images between medical centers and scanners, making generalization of deep learning to unseen data difficult. To gain a better understanding of the problem, we present a study on convolutional neural networks trained for tumor classification of H&E stained whole-slide images. We analyze how augmentation and normalization strategies affect performance and learned representations, and what features a trained model respond to. Most centrally, we present a novel measure for evaluating the distance between domains in the context of the learned representation of a particular model. This measure can reveal how sensitive a model is to domain variations, and can be used to detect new data that a model will have problems generalizing to. The results show how learning is heavily influenced by the preparation of training data, and that the latent representation used to do classification is sensitive to changes in data distribution, especially when training without augmentation or normalization.