arXiv reaDer
肺スワッピングオートエンコーダ:胸部X線写真の解きほぐされた構造-テクスチャ表現の学習
Lung Swapping Autoencoder: Learning a Disentangled Structure-texture Representation of Chest Radiographs
胸部X線写真(CXR)の適切にラベル付けされたデータセットは、注釈のコストが高いため、取得が困難です。したがって、ラベル付けされたデータがないタスクに利益をもたらすために、教師なしの方法で堅牢で転送可能な表現を学習することが望ましい。自然画像とは異なり、医用画像には独自のドメインがあります。たとえば、COVID-19などの多くの肺疾患は、解剖学的構造ではなく、肺組織のテクスチャの変化として現れることが観察されています。したがって、構造の変化の影響を受けずにテクスチャのみを研究することは、下流の予測および予測モデリングタスクに有利であると仮定します。この論文では、CXRの因数分解された表現を学習してテクスチャ因子を構造因子から解きほぐす生成フレームワークである肺スワッピングオートエンコーダ(LSAE)を提案します。具体的には、敵対的トレーニングによって、LSAEは、ある画像の肺の形状を保持しながら、別の画像の肺のテクスチャを継承するハイブリッド画像を生成するように最適化されます。解きほぐされたテクスチャ表現の有効性を実証するために、ChestX-ray14(N = 112,120)でLSAEのテクスチャエンコーダEnc ^ tを評価し、独自の多施設COVID-19結果予測データセットCOVOC(N = 340(サブセット) -1)+ 53(サブセット-2))。どちらのデータセットでも、ベースラインのInception v3より77%小さいLSAEのEnc ^ tを微調整することで、最先端に到達するか、それを上回ります。さらに、同様のモデル予算の半自主監視設定では、LSAEのEnc ^ tも最先端のMoCoと競争力があります。テクスチャと形状の要素を「再混合」することで、トレーニングセットを補強できる意味のあるハイブリッド画像を生成します。このデータ拡張方法により、COVOC予測のパフォーマンスをさらに向上させることができます。微調整せずにサブセット2でサブセット1のトレーニング済みモデルを直接評価した場合でも、改善は一貫しています。
Well-labeled datasets of chest radiographs (CXRs) are difficult to acquire due to the high cost of annotation. Thus, it is desirable to learn a robust and transferable representation in an unsupervised manner to benefit tasks that lack labeled data. Unlike natural images, medical images have their own domain prior; e.g., we observe that many pulmonary diseases, such as the COVID-19, manifest as changes in the lung tissue texture rather than the anatomical structure. Therefore, we hypothesize that studying only the texture without the influence of structure variations would be advantageous for downstream prognostic and predictive modeling tasks. In this paper, we propose a generative framework, the Lung Swapping Autoencoder (LSAE), that learns factorized representations of a CXR to disentangle the texture factor from the structure factor. Specifically, by adversarial training, the LSAE is optimized to generate a hybrid image that preserves the lung shape in one image but inherits the lung texture of another. To demonstrate the effectiveness of the disentangled texture representation, we evaluate the texture encoder Enc^t in LSAE on ChestX-ray14 (N=112,120), and our own multi-institutional COVID-19 outcome prediction dataset, COVOC (N=340 (Subset-1) + 53 (Subset-2)). On both datasets, we reach or surpass the state-of-the-art by finetuning Enc^t in LSAE that is 77% smaller than a baseline Inception v3. Additionally, in semi-and-self supervised settings with a similar model budget, Enc^t in LSAE is also competitive with the state-of-the-art MoCo. By "re-mixing" the texture and shape factors, we generate meaningful hybrid images that can augment the training set. This data augmentation method can further improve COVOC prediction performance. The improvement is consistent even when we directly evaluate the Subset-1 trained model on Subset-2 without any fine-tuning.
updated: Tue Jan 18 2022 22:55:24 GMT+0000 (UTC)
published: Tue Jan 18 2022 22:55:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト