arXiv reaDer
3D質問応答
3D Question Answering
視覚的な質問応答(VQA)は、近年、目覚ましい進歩を遂げています。ただし、ほとんどの取り組みは、2D画像の質問応答タスクにのみ焦点を当てています。このホワイトペーパーでは、VQAを3Dドメインに拡張する最初の試みを紹介します。これにより、人工知能による3D実世界シナリオの認識が容易になります。画像ベースのVQAとは異なり、3D質問応答(3DQA)は、入力としてカラーポイントクラウドを使用し、3D関連の質問に回答するために外観と3Dジオメトリ理解能力の両方を必要とします。この目的のために、外観と形状の情報をそれぞれ活用するための2つのエンコーダーで構成される新しいトランスベースの3DQAフレームワーク「3DQA-TR」を提案します。外観、形状、および言語の質問のマルチモーダル情報は、最後に、3D-Linguistic Bertを介して互いに出席し、ターゲットの回答を予測します。提案された3DQAフレームワークの有効性を検証するために、ScanNetデータセットに基づいて構築された最初の3DQAデータセット「ScanQA」をさらに開発します。 、806シーンで約30Kの回答。このデータセットでの広範な実験は、既存のVQAフレームワークに対する提案された3DQAフレームワークの明らかな優位性、および主要な設計の有効性を示しています。私たちのコードとデータセットは、この方向での研究を容易にするために公開されます。
Visual Question Answering (VQA) has witnessed tremendous progress in recent years. However, most efforts only focus on the 2D image question answering tasks. In this paper, we present the first attempt at extending VQA to the 3D domain, which can facilitate artificial intelligence's perception of 3D real-world scenarios. Different from image based VQA, 3D Question Answering (3DQA) takes the color point cloud as input and requires both appearance and 3D geometry comprehension ability to answer the 3D-related questions. To this end, we propose a novel transformer-based 3DQA framework ``3DQA-TR", which consists of two encoders for exploiting the appearance and geometry information, respectively. The multi-modal information of appearance, geometry, and the linguistic question can finally attend to each other via a 3D-Linguistic Bert to predict the target answers. To verify the effectiveness of our proposed 3DQA framework, we further develop the first 3DQA dataset ``ScanQA", which builds on the ScanNet dataset and contains ∼6K questions, ∼30K answers for 806 scenes. Extensive experiments on this dataset demonstrate the obvious superiority of our proposed 3DQA framework over existing VQA frameworks, and the effectiveness of our major designs. Our code and dataset will be made publicly available to facilitate the research in this direction.
updated: Wed Dec 15 2021 18:59:59 GMT+0000 (UTC)
published: Wed Dec 15 2021 18:59:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト