この論文では、エンドツーエンドの方法で多粒度の視覚表現と言語表現を学習する新しい階層型アライメント モデル (HAM) を紹介します。私たちは、3D コンテキストとインスタンスをモデル化するためにキーポイントと提案ポイントを抽出し、コンテキスト変調によるポイント言語アライメント (PLACM) メカニズムを提案します。このメカニズムは、単語レベルおよび文レベルの言語埋め込みを視覚的表現と徐々に調整することを学習します。視覚的なコンテキストは、潜在的な有益な関係を捉えます。グローバルとローカルの両方の関係をさらに捉えるために、PLACM をグローバルとローカルの両方のフィールドに適用する空間的に多粒度のモデリング スキームを提案します。実験結果は HAM の優位性を示しており、視覚化された結果は、HAM がきめの細かい視覚的および言語的表現を動的にモデル化できることを示しています。 HAM は既存の手法を大幅に上回り、公開されている 2 つのデータセットで最先端のパフォーマンスを達成し、ECCV 2022 ScanRefer チャレンジで優勝しました。コードは~https://github.com/PPjmchen/HAMから入手できます。
This paper presents a novel hierarchical alignment model (HAM) that learns multi-granularity visual and linguistic representations in an end-to-end manner. We extract key points and proposal points to model 3D contexts and instances, and propose point-language alignment with context modulation (PLACM) mechanism, which learns to gradually align word-level and sentence-level linguistic embeddings with visual representations, while the modulation with the visual context captures latent informative relationships. To further capture both global and local relationships, we propose a spatially multi-granular modeling scheme that applies PLACM to both global and local fields. Experimental results demonstrate the superiority of HAM, with visualized results showing that it can dynamically model fine-grained visual and linguistic representations. HAM outperforms existing methods by a significant margin and achieves state-of-the-art performance on two publicly available datasets, and won the championship in ECCV 2022 ScanRefer challenge. Code is available at~https://github.com/PPjmchen/HAM.