arXiv reaDer
BERTHop:胸部X線疾患診断のための効果的な視覚と言語モデル
BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis
視覚と言語(V&L)モデルは、画像とテキストを入力として受け取り、それらの間の関連をキャプチャすることを学習します。以前の調査によると、事前にトレーニングされたV&Lモデルは、視覚的な質問応答(VQA)などのダウンストリームタスクのモデルパフォーマンスを大幅に向上させることができます。ただし、V&Lモデルは、ドメインのギャップのために、医療ドメイン(X線画像や臨床ノートなど)に適用すると効果が低下します。このホワイトペーパーでは、事前にトレーニングされたV&Lモデルを医療アプリケーションに適用する際の課題を調査します。特に、一般的なV&Lモデルの視覚的表現は医療データの処理には適していないことを確認しました。この制限を克服するために、PixelHop ++とVisualBERTに基づくトランスフォーマーベースのモデルであるBERTHopを提案し、2つのモダリティ間の関連付けをより適切にキャプチャします。一般的に使用される胸腔疾患診断ベンチマークであるOpenIデータセットでの実験は、BERTHopがトレーニング中に最先端(SOTA)より1.62%高い98.12%の平均曲線下面積(AUC)を達成することを示しています9分の1のデータセット。
Vision-and-language(V&L) models take image and text as input and learn to capture the associations between them. Prior studies show that pre-trained V&L models can significantly improve the model performance for downstream tasks such as Visual Question Answering (VQA). However, V&L models are less effective when applied in the medical domain (e.g., on X-ray images and clinical notes) due to the domain gap. In this paper, we investigate the challenges of applying pre-trained V&L models in medical applications. In particular, we identify that the visual representation in general V&L models is not suitable for processing medical data. To overcome this limitation, we propose BERTHop, a transformer-based model based on PixelHop++ and VisualBERT, for better capturing the associations between the two modalities. Experiments on the OpenI dataset, a commonly used thoracic disease diagnosis benchmark, show that BERTHop achieves an average Area Under the Curve (AUC) of 98.12% which is 1.62% higher than state-of-the-art (SOTA) while it is trained on a 9 times smaller dataset.
updated: Tue Aug 10 2021 21:51:25 GMT+0000 (UTC)
published: Tue Aug 10 2021 21:51:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト