arXiv reaDer
LiT-4-RSVQA: リモート センシングにおける軽量トランスベースの視覚的質問応答
LiT-4-RSVQA: Lightweight Transformer-based Visual Question Answering in Remote Sensing
リモート センシング (RS) における視覚的質問応答 (VQA) 手法は、RS 画像に関する自然言語の質問に答えることを目的としています。既存の手法のほとんどは大量の計算リソースを必要とするため、RS の運用シナリオでの適用が制限されます。この問題に対処するために、この文書では、RS での効率的かつ正確な VQA を実現する、RS での効果的な軽量トランスベース VQA (LiT-4-RSVQA) アーキテクチャを紹介します。私たちのアーキテクチャは次のもので構成されています。 i) 軽量のテキスト エンコーダ モジュール。 ii) 軽量の画像エンコーダ モジュール。 iii) 融合モジュール。 iv) 分類モジュール。 VQA ベンチマーク データセットで得られた実験結果は、私たちが提案する LiT-4-RSVQA アーキテクチャが、実行ハードウェアの計算要件を大幅に削減しながら、正確な VQA 結果を提供することを示しています。私たちのコードは https://git.tu-berlin.de/rsim/lit4rsvqa で公開されています。
Visual question answering (VQA) methods in remote sensing (RS) aim to answer natural language questions with respect to an RS image. Most of the existing methods require a large amount of computational resources, which limits their application in operational scenarios in RS. To address this issue, in this paper we present an effective lightweight transformer-based VQA in RS (LiT-4-RSVQA) architecture for efficient and accurate VQA in RS. Our architecture consists of: i) a lightweight text encoder module; ii) a lightweight image encoder module; iii) a fusion module; and iv) a classification module. The experimental results obtained on a VQA benchmark dataset demonstrate that our proposed LiT-4-RSVQA architecture provides accurate VQA results while significantly reducing the computational requirements on the executing hardware. Our code is publicly available at https://git.tu-berlin.de/rsim/lit4rsvqa.
updated: Fri Jun 02 2023 08:58:08 GMT+0000 (UTC)
published: Thu Jun 01 2023 14:53:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト