CT Data Curation for Liver Patients: Phase Recognition in Dynamic Contrast-Enhanced CT
  医療用画像処理内でより記述的な機械学習モデルの需要が高まるにつれて、データ不足によるボトルネックが悪化します。したがって、十分な大規模データを収集するには、病院のPACSなどの乱雑で現実のデータセットからデータ/ラベルのペアを収集する自動ツールが必要になります。これが私たちの仕事の焦点です。そこでは、多相CT肝臓研究を抽出し、実世界の異種病院PACSデータセットから各スキャンの相を識別するための原則的なデータキュレーションツールを提示します。典型的な展開シナリオをエミュレートするには、まずDICOMタグからの単純なルールを使用してテキストマイニングされたノイズの多いラベルのセットを機関パートナーから取得します。カスタマイズされ、合理化された3D SEアーキテクチャを使用してディープラーニングシステムをトレーニングし、非造影、動脈、静脈、および遅延期のダイナミックCT肝臓スキャンを識別し、他の種類の肝臓造影研究を含む他のものを除外します。可能な限り多くのトレーニングデータを活用するために、「コントラスト」として識別されたスキャンからのみ学習できるクロスエントロピー損失の集約も導入します。 7680人の患者のイメージング研究の43Kスキャンのデータセットに関する広範な実験により、3DSEアーキテクチャは、損失の合計で0.977の平均F1を達成し、最大92.7%の研究を正しく収集できることが実証されました。標準損失アプローチ、および他のより複雑なモデルアーキテクチャよりも優れています。
As the demand for more descriptive machine learning models grows within medical imaging, bottlenecks due to data paucity will exacerbate. Thus, collecting enough large-scale data will require automated tools to harvest data/label pairs from messy and real-world datasets, such as hospital PACS. This is the focus of our work, where we present a principled data curation tool to extract multi-phase CT liver studies and identify each scan's phase from a real-world and heterogenous hospital PACS dataset. Emulating a typical deployment scenario, we first obtain a set of noisy labels from our institutional partners that are text mined using simple rules from DICOM tags. We train a deep learning system, using a customized and streamlined 3D SE architecture, to identify non-contrast, arterial, venous, and delay phase dynamic CT liver scans, filtering out anything else, including other types of liver contrast studies. To exploit as much training data as possible, we also introduce an aggregated cross entropy loss that can learn from scans only identified as "contrast". Extensive experiments on a dataset of 43K scans of 7680 patient imaging studies demonstrate that our 3DSE architecture, armed with our aggregated loss, can achieve a mean F1 of 0.977 and can correctly harvest up to 92.7% of studies, which significantly outperforms the text-mined and standard-loss approach, and also outperforms other, and more complex, model architectures.
updated: Fri Sep 27 2019 21:48:31 GMT+0000 (UTC)
published: Thu Sep 05 2019 16:31:40 GMT+0000 (UTC)
