ビッグデータと機械学習の時代に医療記録情報を活用するには、データをクリーンアップして匿名化する必要があるという注意事項が伴います。保護医療情報 (PHI) が画像メタデータに含まれているか埋め込まれている場合、多施設共同作業におけるデータ共有と調和の促進は特に困難です。私たちは、画像に直接 PHI が頻繁に含まれるため、特に困難な超音波画像の問題を軽減するために、PyLogik と呼ばれる Python フレームワークの新しいライブラリを提案します。 PyLogik は、一連のテキスト検出/抽出、フィルタリング、しきい値処理、形態学的および輪郭比較を通じて画像ボリュームを処理します。この方法論では、画像を匿名化してファイル サイズを削減し、ディープ ラーニングやデータ共有のアプリケーション用に画像ボリュームを準備します。超音波データ処理におけるその有効性を評価するために、50 個の心臓超音波 (心エコー図) のランダム サンプルが PyLogik を通じて処理され、その出力が専門ユーザーによる手動セグメンテーションと比較されました。 2 つのアプローチの Dice 係数は、平均値 0.976 を達成しました。次に、アルゴリズムを使用して達成される情報圧縮の程度を確認するために調査が行われました。 PyLogik による処理後、結果のデータは平均で約 72% 小さくなることがわかりました。私たちの結果は、PyLogik がデータのクリーニングと匿名化、ROI の決定、および超音波データの効率的な保存、使用、配布を促進するファイル圧縮のための実行可能な方法論であることを示唆しています。他の種類の医用画像データで使用するために、パイプラインのバリアントも作成されています。
Leveraging medical record information in the era of big data and machine learning comes with the caveat that data must be cleaned and de-identified. Facilitating data sharing and harmonization for multi-center collaborations are particularly difficult when protected health information (PHI) is contained or embedded in image meta-data. We propose a novel library in the Python framework, called PyLogik, to help alleviate this issue for ultrasound images, which are particularly challenging because of the frequent inclusion of PHI directly on the images. PyLogik processes the image volumes through a series of text detection/extraction, filtering, thresholding, morphological and contour comparisons. This methodology de-identifies the images, reduces file sizes, and prepares image volumes for applications in deep learning and data sharing. To evaluate its effectiveness in processing ultrasound data, a random sample of 50 cardiac ultrasounds (echocardiograms) were processed through PyLogik, and the outputs were compared with the manual segmentations by an expert user. The Dice coefficient of the two approaches achieved an average value of 0.976. Next, an investigation was conducted to ascertain the degree of information compression achieved using the algorithm. Resultant data was found to be on average ~72% smaller after processing by PyLogik. Our results suggest that PyLogik is a viable methodology for data cleaning and de-identification, determining ROI, and file compression which will facilitate efficient storage, use, and dissemination of ultrasound data. Variants of the pipeline have also been created for use with other medical imaging data types.