arXiv reaDer
Pylogik を使用した医用画像の匿名化、クリーニング、および圧縮
Medical Image Deidentification, Cleaning and Compression Using Pylogik
ビッグデータと機械学習の時代に医療記録情報を活用するには、データをクリーニングして匿名化する必要があるという警告が伴います。保護医療情報 (PHI) が画像メタデータに含まれているか埋め込まれている場合、多施設共同作業のためのデータ共有と調和を促進することは特に困難です。 PyLogik と呼ばれる Python フレームワークの新しいライブラリを提案して、超音波画像のこの問題を軽減します。これは、PHI が頻繁に画像に直接含まれるため、特に困難です。 PyLogik は、一連のテキスト検出/抽出、フィルタリング、しきい値処理、形態学的および輪郭の比較を通じて画像ボリュームを処理します。この方法論は、イメージを匿名化し、ファイル サイズを縮小し、ディープ ラーニングおよびデータ共有のアプリケーション用にイメージ ボリュームを準備します。関心領域 (ROI) の識別におけるその有効性を評価するために、50 の心臓超音波 (心エコー図) のランダム サンプルが PyLogik を介して処理され、出力が専門家ユーザーによる手動セグメンテーションと比較されました。 2 つのアプローチの Dice 係数は、平均値 0.976 を達成しました。次に、アルゴリズムによる情報圧縮の程度を調査しました。結果のデータは、PyLogik による処理後、平均で約 72% 小さいことがわかりました。私たちの結果は、PyLogik が超音波データのクリーニングと匿名化、ROI の決定、および超音波データの効率的な保存、使用、配布を促進するファイル圧縮のための実行可能な方法論であることを示唆しています。
Leveraging medical record information in the era of big data and machine learning comes with the caveat that data must be cleaned and deidentified. Facilitating data sharing and harmonization for multi-center collaborations are particularly difficult when protected health information (PHI) is contained or embedded in image meta-data. We propose a novel library in the Python framework, called PyLogik, to help alleviate this issue for ultrasound images, which are particularly challenging because of the frequent inclusion of PHI directly on the images. PyLogik processes the image volumes through a series of text detection/extraction, filtering, thresholding, morphological and contour comparisons. This methodology deidentifies the images, reduces file sizes, and prepares image volumes for applications in deep learning and data sharing. To evaluate its effectiveness in the identification of regions of interest (ROI), a random sample of 50 cardiac ultrasounds (echocardiograms) were processed through PyLogik, and the outputs were compared with the manual segmentations by an expert user. The Dice coefficient of the two approaches achieved an average value of 0.976. Next, an investigation was conducted to ascertain the degree of information compression achieved using the algorithm. Resultant data was found to be on average approximately 72% smaller after processing by PyLogik. Our results suggest that PyLogik is a viable methodology for ultrasound data cleaning and deidentification, determining ROI, and file compression which will facilitate efficient storage, use, and dissemination of ultrasound data.
updated: Thu Apr 20 2023 21:23:14 GMT+0000 (UTC)
published: Thu Apr 20 2023 21:23:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト