このホワイト ペーパーでは、点群に基づいた 3D ビジュアル グラウンディングという新たな課題のある視覚言語タスクに取り組みます。最近の多くの作品は、よく知られているアテンション メカニズムを備えた Transformer の恩恵を受けており、このタスクに大きなブレークスルーをもたらしています。ただし、さまざまな事前トレーニングや多段階処理を使用することで、達成を実現していることがわかります。パイプラインを簡素化するために、3D ビジュアルの基礎を慎重に調査し、このタスクで高性能なエンド ツー エンド モデルを開発する方法について 3 つの基本的な質問を提案します。これらの問題に対処するために、特定のテキストとマルチモーダルな視覚入力の両方に対して、マルチグラニュラリティ表現と効率的な拡張を提供する、新しい階層的注意モデル (HAM) を特に導入します。さらに重要なことに、HAM は大規模な ScanRefer チャレンジで第 1 位にランクされ、既存のすべての方法を大幅に上回っています。コードは承認後にリリースされます。
This paper tackles an emerging and challenging vision-language task, 3D visual grounding on point clouds. Many recent works benefit from Transformer with the well-known attention mechanism, leading to a tremendous breakthrough for this task. However, we find that they realize the achievement by using various pre-training or multi-stage processing. To simplify the pipeline, we carefully investigate 3D visual grounding and propose three fundamental questions about how to develop an end-to-end model with high performance for this task. To address these problems, we especially introduce a novel Hierarchical Attention Model (HAM), offering multi-granularity representation and efficient augmentation for both given texts and multi-modal visual inputs. More importantly, HAM ranks first on the large-scale ScanRefer challenge, which outperforms all the existing methods by a significant margin. Codes will be released after acceptance.