arXiv reaDer
InstanceRefer:インスタンスのマルチレベルコンテキスト参照による点群の視覚的接地のための協調的全体論的理解
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring
2D画像の視覚的根拠と比較して、点群での自然言語に基づく3Dオブジェクトのローカリゼーションは、プロパティがまばらで無秩序であるため、より困難です。この論文では、インスタンスの属性、関係、およびローカリゼーションの認識を統合することにより、優れた3D視覚的基盤を実現するために、InstanceReferという名前の新しいモデルを提案します。実際には、自然言語から予測されたターゲットカテゴリに基づいて、モデルは最初に点群のパノラマセグメンテーションからインスタンスをフィルタリングして少数の候補を取得します。このようなインスタンスレベルの候補は、冗長な3Dオブジェクト提案候補よりも効果的かつ合理的であることに注意してください。次に、候補ごとに、協調的な全体的なシーン言語理解、つまり、インスタンス属性の認識、インスタンス間の関係の認識、インスタンスからバックグラウンドへのグローバルローカリゼーションの認識からのマルチレベルのコンテキスト参照を実行します。最終的に、最も関連性の高い候補は、適応信頼融合を通じて効果的にローカライズされます。実験により、InstanceReferが以前の最先端の方法を大幅に上回っていることを確認しています。つまり、ScanReferベンチマーク(1位)で9.5%の改善、Sr3Dで7.2%の改善です。
Compared with the visual grounding in 2D images, the natural-language-guided 3D object localization on point clouds is more challenging due to the sparse and disordered property. In this paper, we propose a new model, named InstanceRefer, to achieve a superior 3D visual grounding through unifying instance attribute, relation and localization perceptions. In practice, based on the predicted target category from natural language, our model first filters instances from panoptic segmentation on point clouds to obtain a small number of candidates. Note that such instance-level candidates are more effective and rational than the redundant 3D object-proposal candidates. Then, for each candidate, we conduct the cooperative holistic scene-language understanding, i.e., multi-level contextual referring from instance attribute perception, instance-to-instance relation perception and instance-to-background global localization perception. Eventually, the most relevant candidate is localized effectively through adaptive confidence fusion. Experiments confirm that our InstanceRefer outperforms previous state-of-the-art methods by a large margin, i.e., 9.5% improvement on the ScanRefer benchmark (ranked 1st place) and 7.2% improvement on Sr3D.
updated: Mon Mar 01 2021 16:59:27 GMT+0000 (UTC)
published: Mon Mar 01 2021 16:59:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト