arXiv reaDer
リモートセンシングの視覚的な質問応答に適した画像テキストの埋め込みを見つける方法は?
How to find a good image-text embedding for remote sensing visual question answering?
最近、視覚的な質問応答(VQA)がリモートセンシングに導入され、オーバーヘッド画像からの情報抽出に誰もがアクセスしやすくなりました。 VQAは、画像に関する質問(自然言語であるため、簡単に作成できる)を検討し、コンピュータービジョンと自然言語処理方法に基づくモデルを通じて回答を提供することを目的としています。そのため、VQAモデルでは、視覚的特徴とテキスト的特徴を共同で検討する必要があります。これは、多くの場合、融合ステップを通じて行われます。この作業では、リモートセンシングのためのVQAのコンテキストで3つの異なる融合方法論を研究し、モデルの複雑さに関して精度の向上を分析します。私たちの調査結果は、より複雑な融合メカニズムによってパフォーマンスが向上することを示していますが、モデルの複雑さとパフォーマンスの間のトレードオフを求めることは実際には価値があります。
Visual question answering (VQA) has recently been introduced to remote sensing to make information extraction from overhead imagery more accessible to everyone. VQA considers a question (in natural language, therefore easy to formulate) about an image and aims at providing an answer through a model based on computer vision and natural language processing methods. As such, a VQA model needs to jointly consider visual and textual features, which is frequently done through a fusion step. In this work, we study three different fusion methodologies in the context of VQA for remote sensing and analyse the gains in accuracy with respect to the model complexity. Our findings indicate that more complex fusion mechanisms yield an improved performance, yet that seeking a trade-of between model complexity and performance is worthwhile in practice.
updated: Fri Sep 24 2021 09:48:28 GMT+0000 (UTC)
published: Fri Sep 24 2021 09:48:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト