arXiv reaDer
Q2ATransformer: Answer Querying Decoder による医療 VQA の改善
Q2ATransformer: Improving Medical VQA via an Answer Querying Decoder
医用視覚的質問応答 (VQA) システムは、医用画像によって運ばれる診療所関連の情報を理解するための補助的な役割を果たします。医用画像に対する質問には、クローズエンド (はい/いいえの質問など) とオープンエンドの 2 つのカテゴリがあります。答えを得るために、既存の医療 VQA メソッドの大半は分類アプローチに依存していますが、いくつかの研究では、生成アプローチまたは 2 つの混合を使用しようとしています。分類のアプローチは比較的単純ですが、長いオープンエンドの質問ではうまく機能しません。このギャップを埋めるために、このホワイトペーパーでは、分類と生成の両方のアプローチの利点を統合し、クローズエンドとオープンエンドに統一された治療を提供する、医療用 VQA 用の新しいトランスフォーマーベースのフレームワーク (Q2ATransformer と呼ばれる) を提案します。質問を終了します。具体的には、特定の画像と質問のペアに対する各回答クラスの存在を照会するために、一連の学習可能な候補回答埋め込みを備えた追加の Transformer デコーダーを導入します。 Transformer のアテンションを通じて、候補の回答の埋め込みは、画像と質問のペアの融合された機能と対話して決定を下します。このように、分類ベースのアプローチでありながら、生成ベースのアプローチと同様に、予測のための回答情報と相互作用するメカニズムを提供します。一方、分類により、回答の検索スペースを減らすことでタスクの難易度を軽減します。私たちの方法は、2 つの医療 VQA ベンチマークで新しい最先端のパフォーマンスを実現します。特に、オープンエンドの質問では、VQA-RAD で 79.19%、PathVQA で 54.85% を達成し、それぞれ 16.09% と 41.45% の絶対改善を達成しました。
Medical Visual Question Answering (VQA) systems play a supporting role to understand clinic-relevant information carried by medical images. The questions to a medical image include two categories: close-end (such as Yes/No question) and open-end. To obtain answers, the majority of the existing medical VQA methods relies on classification approaches, while a few works attempt to use generation approaches or a mixture of the two. The classification approaches are relatively simple but perform poorly on long open-end questions. To bridge this gap, in this paper, we propose a new Transformer based framework for medical VQA (named as Q2ATransformer), which integrates the advantages of both the classification and the generation approaches and provides a unified treatment for the close-end and open-end questions. Specifically, we introduce an additional Transformer decoder with a set of learnable candidate answer embeddings to query the existence of each answer class to a given image-question pair. Through the Transformer attention, the candidate answer embeddings interact with the fused features of the image-question pair to make the decision. In this way, despite being a classification-based approach, our method provides a mechanism to interact with the answer information for prediction like the generation-based approaches. On the other hand, by classification, we mitigate the task difficulty by reducing the search space of answers. Our method achieves new state-of-the-art performance on two medical VQA benchmarks. Especially, for the open-end questions, we achieve 79.19% on VQA-RAD and 54.85% on PathVQA, with 16.09% and 41.45% absolute improvements, respectively.
updated: Tue Apr 04 2023 08:06:40 GMT+0000 (UTC)
published: Tue Apr 04 2023 08:06:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト