arXiv reaDer
画像ベースの医療レポート生成における最先端のパフォーマンスとNLPメトリックの検査
Inspecting state of the art performance and NLP metrics in image-based medical report generation
過去数年間、画像検査を入力として与えられた書面によるレポートを生成する問題に対処するために、いくつかの深層学習アーキテクチャが提案されてきました。ほとんどの作品は、標準の自然言語処理(NLP)メトリック(BLEU、ROUGEなど)を使用して生成されたレポートを評価し、大幅な進捗状況を報告します。この記事では、最先端の(SOTA)モデルを弱いベースラインと比較することにより、この進歩を対比します。単純で単純なアプローチでも、ほとんどの従来のNLPメトリックでほぼSOTAのパフォーマンスが得られることを示します。このタスクの評価方法は、臨床的精度を正しく測定するためにさらに研究する必要があり、理想的には医師がこの目的に貢献する必要があると結論付けています。
Several deep learning architectures have been proposed over the last years to deal with the problem of generating a written report given an imaging exam as input. Most works evaluate the generated reports using standard Natural Language Processing (NLP) metrics (e.g. BLEU, ROUGE), reporting significant progress. In this article, we contrast this progress by comparing state of the art (SOTA) models against weak baselines. We show that simple and even naive approaches yield near SOTA performance on most traditional NLP metrics. We conclude that evaluation methods in this task should be further studied towards correctly measuring clinical accuracy, ideally involving physicians to contribute to this end.
updated: Sat Jan 15 2022 06:05:51 GMT+0000 (UTC)
published: Wed Nov 18 2020 13:09:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト