arXiv reaDer
計画CTおよびFDG-PETCTを使用した食道総腫瘍体積の自動描写のための2ストリーム深層学習法の多施設検証
Multi-institutional Validation of Two-Streamed Deep Learning Method for Automated Delineation of Esophageal Gross Tumor Volume using planning-CT and FDG-PETCT
背景:食道総腫瘍体積(GTV)の輪郭を描くための現在の臨床ワークフローは、高い人件費とユーザー間のばらつきの手動による描写に依存しています。目的:1つの施設で開発され、複数の施設でテストされた、ディープラーニング(DL)マルチモダリティ食道GTV輪郭モデルの臨床的適用性を検証すること。方法と材料:4つの施設から606人の食道癌患者を収集しました。 252の施設1の患者は、治療計画-CT(pCT)と診断用FDG-PETCTのペアを持っていました。他の3施設からの354人の患者はpCTしか持っていませんでした。 GTVセグメンテーションの2ストリームDLモデルは、148人の患者施設-1サブセットのpCTおよびPETCTスキャンを使用して開発されました。この構築されたモデルには、pCTまたはpCT + PETCTの組み合わせのみを介してGTVをセグメント化する柔軟性がありました。独立した評価のために、残りの104の施設-1の患者は目に見えない内部検査として振る舞い、354の施設2-4の患者は外部検査に使用されました。輪郭編集の取り組みを評価するために、人間の専門家による手動修正度を評価しました。ディープモデルのパフォーマンスは、20人のランダムな外部患者を対象としたマルチユーザー研究で4人の放射線腫瘍医と比較されました。輪郭の精度と時間は、DL支援前後の描写プロセスで記録されました。結果:私たちのモデルは、内部テストで高いセグメンテーション精度を達成し(平均ダイススコア:pCTを使用して0.81、pCT + PETを使用して0.83)、外部評価によく一般化されました(平均DSC:0.80)。専門家の評価によると、88%の患者の予測された輪郭は、わずかな修正のみ、または修正なしで済みます。マルチユーザー評価では、深いモデルの助けを借りて、観察者間の変動と必要な輪郭の時間がそれぞれ37.6%と48.0%減少しました。結論:ディープラーニングで予測されたGTVの輪郭は、グラウンドトゥルースと密接に一致しており、ほとんど変更を加えずに、またはまったく変更せずに臨床的に採用できました。
Background: The current clinical workflow for esophageal gross tumor volume (GTV) contouring relies on manual delineation of high labor-costs and interuser variability. Purpose: To validate the clinical applicability of a deep learning (DL) multi-modality esophageal GTV contouring model, developed at 1 institution whereas tested at multiple ones. Methods and Materials: We collected 606 esophageal cancer patients from four institutions. 252 institution-1 patients had a treatment planning-CT (pCT) and a pair of diagnostic FDG-PETCT; 354 patients from other 3 institutions had only pCT. A two-streamed DL model for GTV segmentation was developed using pCT and PETCT scans of a 148 patient institution-1 subset. This built model had the flexibility of segmenting GTVs via only pCT or pCT+PETCT combined. For independent evaluation, the rest 104 institution-1 patients behaved as unseen internal testing, and 354 institutions 2-4 patients were used for external testing. We evaluated manual revision degrees by human experts to assess the contour-editing effort. The performance of the deep model was compared against 4 radiation oncologists in a multiuser study with 20 random external patients. Contouring accuracy and time were recorded for the pre-and post-DL assisted delineation process. Results: Our model achieved high segmentation accuracy in internal testing (mean Dice score: 0.81 using pCT and 0.83 using pCT+PET) and generalized well to external evaluation (mean DSC: 0.80). Expert assessment showed that the predicted contours of 88% patients need only minor or no revision. In multi-user evaluation, with the assistance of a deep model, inter-observer variation and required contouring time were reduced by 37.6% and 48.0%, respectively. Conclusions: Deep learning predicted GTV contours were in close agreement with the ground truth and could be adopted clinically with mostly minor or no changes.
updated: Mon Oct 11 2021 13:56:09 GMT+0000 (UTC)
published: Mon Oct 11 2021 13:56:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト