arXiv reaDer
HistoTransfer:組織病理学のための転移学習を理解する
HistoTransfer: Understanding Transfer Learning for Histopathology
デジタルパソロジーと人工知能の進歩により、自動化された病気の診断と予後のための深層学習ベースのコンピュータービジョン技術が可能になりました。ただし、WSIには、計算上およびアルゴリズム上の固有の課題があります。 WSIはギガピクセルサイズであるため、ディープニューラルネットワークのトレーニングに直接使用することは不可能です。したがって、モデリングには2段階のアプローチが採用されます。最初にパッチ表現が抽出され、次にWSI予測のための集計が行われます。これらのアプローチでは、パッチエンコーダーをトレーニングするために詳細なピクセルレベルの注釈が必要です。ただし、これらの注釈を取得することは、医療専門家にとって時間と手間がかかります。転送学習はこのギャップに対処するために使用され、ImageNetで事前トレーニングされた深層学習アーキテクチャはパッチレベルの表現を生成するために使用されます。 ImageNetは組織病理学データとは大きく異なりますが、事前にトレーニングされたネットワークは組織病理学データで印象的なパフォーマンスを発揮することが示されています。また、複数の組織病理学データのリリースと相まって、自己監視およびマルチタスク学習の進歩により、組織病理学固有のネットワークがリリースされました。この作業では、ImageNetでトレーニングされたネットワークと組織病理学データから抽出された特徴のパフォーマンスを比較します。スライドレベルの集約のために、これらの抽出された特徴を介してアテンションプーリングネットワークを使用します。より複雑なネットワークを使用して学習した機能がパフォーマンスの向上につながるかどうかを調査します。フレームワークを微調整するために単純なtop-kサンプリング手法を使用し、Centered KernelAlignmentを使用して凍結ネットワークと微調整ネットワーク間の表現の類似性を調査します。さらに、中間ブロック表現が特徴抽出に適しているかどうか、およびImageNetアーキテクチャが組織病理学にとって不必要に大きいかどうかを調べるために、ResNet18およびDenseNet121のブロックを切り捨ててパフォーマンスを調べます。
Advancement in digital pathology and artificial intelligence has enabled deep learning-based computer vision techniques for automated disease diagnosis and prognosis. However, WSIs present unique computational and algorithmic challenges. WSIs are gigapixel-sized, making them infeasible to be used directly for training deep neural networks. Hence, for modeling, a two-stage approach is adopted: Patch representations are extracted first, followed by the aggregation for WSI prediction. These approaches require detailed pixel-level annotations for training the patch encoder. However, obtaining these annotations is time-consuming and tedious for medical experts. Transfer learning is used to address this gap and deep learning architectures pre-trained on ImageNet are used for generating patch-level representation. Even though ImageNet differs significantly from histopathology data, pre-trained networks have been shown to perform impressively on histopathology data. Also, progress in self-supervised and multi-task learning coupled with the release of multiple histopathology data has led to the release of histopathology-specific networks. In this work, we compare the performance of features extracted from networks trained on ImageNet and histopathology data. We use an attention pooling network over these extracted features for slide-level aggregation. We investigate if features learned using more complex networks lead to gain in performance. We use a simple top-k sampling approach for fine-tuning framework and study the representation similarity between frozen and fine-tuned networks using Centered Kernel Alignment. Further, to examine if intermediate block representation is better suited for feature extraction and ImageNet architectures are unnecessarily large for histopathology, we truncate the blocks of ResNet18 and DenseNet121 and examine the performance.
updated: Sun Jun 13 2021 18:55:23 GMT+0000 (UTC)
published: Sun Jun 13 2021 18:55:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト