医用画像のキャプションは、特定の医用画像の内容を説明するための医用説明を自動的に生成します。従来の医用画像キャプションモデルは、単一の医用画像入力のみに基づいて医用説明を作成します。したがって、従来のアプローチに基づいて抽象的な医学的記述または概念を生成することは困難です。このような方法は、医用画像のキャプションの有効性を制限します。マルチモーダル医用画像キャプションは、この問題に対処するために利用されるアプローチの1つです。マルチモーダル医療画像キャプションでは、専門家が定義したキーワードなどのテキスト入力が、医療記述生成の主な推進力の1つと見なされます。したがって、テキスト入力と医用画像を効果的にエンコードすることは、マルチモーダル医用画像のキャプションのタスクにとって両方とも重要です。この作業では、新しいエンドツーエンドのディープマルチモーダル医用画像キャプションモデルが提案されています。提案されたアプローチを開発するために、文脈化されたキーワード表現、テキストの特徴の強化、およびマスクされた自己注意が使用されます。既存のマルチモーダル医用画像キャプションデータセットの評価に基づいて、実験結果は、提案されたモデルが、現状と比較して、BLEU-avgで+ 53.2%、CIDErで+ 18.6%の増加で効果的であることを示しています。 -アートメソッド。
Medical image captioning automatically generates a medical description to describe the content of a given medical image. A traditional medical image captioning model creates a medical description only based on a single medical image input. Hence, an abstract medical description or concept is hard to be generated based on the traditional approach. Such a method limits the effectiveness of medical image captioning. Multi-modal medical image captioning is one of the approaches utilized to address this problem. In multi-modal medical image captioning, textual input, e.g., expert-defined keywords, is considered as one of the main drivers of medical description generation. Thus, encoding the textual input and the medical image effectively are both important for the task of multi-modal medical image captioning. In this work, a new end-to-end deep multi-modal medical image captioning model is proposed. Contextualized keyword representations, textual feature reinforcement, and masked self-attention are used to develop the proposed approach. Based on the evaluation of the existing multi-modal medical image captioning dataset, experimental results show that the proposed model is effective with the increase of +53.2% in BLEU-avg and +18.6% in CIDEr, compared with the state-of-the-art method.