注意深い注釈がほとんどない胸部X線画像で病気を特定することで、人的労力を大幅に節約できます。最近の研究では、マルチインスタンス学習(MIL)やクラスアクティベーションマップ(CAM)などの革新的な弱教師ありアルゴリズムを使用してこのタスクに取り組みましたが、これらの方法では、不正確または不完全な領域が生成されることがよくあります。その理由の1つは、各画像内の解剖学的領域間の関係および画像間の関係に隠された病理学的意味の無視です。この論文では、文脈的および補償的な情報としてのクロスリージョンとクロスイメージの関係が、より一貫性のある統合されたリージョンを取得するために不可欠であると主張します。関係をモデル化するために、画像内および画像間情報を活用して胸部X線画像上の疾患を特定するグラフ正則化埋め込みネットワーク(GREN)を提案します。 GRENは、事前にトレーニングされたU-Netを使用して肺葉をセグメント化し、画像内グラフを使用して肺葉間の画像内関係をモデル化して、さまざまな領域を比較します。一方、バッチ内画像間の関係は、複数の画像を比較するための画像間グラフによってモデル化されます。このプロセスは、放射線科医のトレーニングと意思決定プロセスを模倣しています。診断のために複数の領域と画像を比較します。ニューラルネットワークの深い埋め込み層が構造情報を保持するために(ローカリゼーションタスクで重要)、ハッシュコーディングとハミング距離を使用してグラフを計算します。グラフは、トレーニングを容易にするための正規化子として使用されます。これにより、私たちのアプローチは、弱く監視された疾患の位置特定のためのNIH胸部X線データセットに関する最先端の結果を達成します。私たちのコードはオンラインでアクセスできます。
Locating diseases in chest X-ray images with few careful annotations saves large human effort. Recent works approached this task with innovative weakly-supervised algorithms such as multi-instance learning (MIL) and class activation maps (CAM), however, these methods often yield inaccurate or incomplete regions. One of the reasons is the neglection of the pathological implications hidden in the relationship across anatomical regions within each image and the relationship across images. In this paper, we argue that the cross-region and cross-image relationship, as contextual and compensating information, is vital to obtain more consistent and integral regions. To model the relationship, we propose the Graph Regularized Embedding Network (GREN), which leverages the intra-image and inter-image information to locate diseases on chest X-ray images. GREN uses a pre-trained U-Net to segment the lung lobes, and then models the intra-image relationship between the lung lobes using an intra-image graph to compare different regions. Meanwhile, the relationship between in-batch images is modeled by an inter-image graph to compare multiple images. This process mimics the training and decision-making process of a radiologist: comparing multiple regions and images for diagnosis. In order for the deep embedding layers of the neural network to retain structural information (important in the localization task), we use the Hash coding and Hamming distance to compute the graphs, which are used as regularizers to facilitate training. By means of this, our approach achieves the state-of-the-art result on NIH chest X-ray dataset for weakly-supervised disease localization. Our codes are accessible online.