Multimodal Multitask Representation Learning for Pathology Biobank Metadata Prediction
  メタデータは、きめ細かく整理された形式のデータの一般的な特性であり、意思決定、知識の発見、およびバイオバンクの異種データ編成に役立つことが証明されています。バイオバンクのすべてのデータタイプの中で、病理学はバイオバンクの重要な要素であり、診断のゴールドスタンダードとしても機能します。バイオバンクの有用性を最大限に高め、生物医学科学の急速な進歩を可能にするには、人口の多い病理メタデータでデータを整理することが不可欠です。ただし、このような情報を手動で注釈するのは退屈で時間がかかります。この研究では、病理画像の4つの主要なスライドレベルメタデータを予測するマルチモーダルマルチタスク学習フレームワークを開発します。このフレームワークは、組織スライド、病理学レポート、症例レベルの構造化データ全体で一般化可能な表現を学習します。 2つのテストセット、1つの外部データセット(TCGA)からの1つの外部テストセット、1つの内部保留テストセット(TTH)での単一モーダルシングルタスクベースラインと比較して、提案された方法で4つのタスクすべてのパフォーマンスが向上していることを示します。テストセットでは、4つのタスクにわたるレシーバー動作特性曲線下の平均面積のパフォーマンス改善は、TCGAとTTHでそれぞれ16.48%と9.05%です。そのような病理学メタデータ予測システムは、専門家の注釈の努力を軽減し、病理学バイオバンクのより良い利用により最終的にデータ駆動型の研究を加速するために採用されるかもしれません。
Metadata are general characteristics of the data in a well-curated and condensed format, and have been proven to be useful for decision making, knowledge discovery, and also heterogeneous data organization of biobank. Among all data types in the biobank, pathology is the key component of the biobank and also serves as the gold standard of diagnosis. To maximize the utility of biobank and allow the rapid progress of biomedical science, it is essential to organize the data with well-populated pathology metadata. However, manual annotation of such information is tedious and time-consuming. In the study, we develop a multimodal multitask learning framework to predict four major slide-level metadata of pathology images. The framework learns generalizable representations across tissue slides, pathology reports, and case-level structured data. We demonstrate improved performance across all four tasks with the proposed method compared to a single modal single task baseline on two test sets, one external test set from a distinct data source (TCGA) and one internal held-out test set (TTH). In the test sets, the performance improvements on the averaged area under receiver operating characteristic curve across the four tasks are 16.48% and 9.05% on TCGA and TTH, respectively. Such pathology metadata prediction system may be adopted to mitigate the effort of expert annotation and ultimately accelerate the data-driven research by better utilization of the pathology biobank.
