arXiv reaDer
点群での3D高密度キャプション用の空間誘導トランスフォーマー
Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds
3Dポイントクラウドでの高密度のキャプションは、オブジェクトレベルの3Dシーンの理解を伴う新たなビジョンと言語のタスクです。従来の3Dオブジェクト検出のような大まかなセマンティッククラス予測とバウンディングボックス回帰とは別に、3D高密度キャプションは、対象の各シーンオブジェクトの視覚的外観と空間的関係に関する自然言語記述のさらに詳細なインスタンスレベルのラベルを作成することを目的としています。ニューラル機械翻訳の精神に従って、シーン内のオブジェクトを検出して記述するために、トランスフォーマーベースのエンコーダーデコーダーアーキテクチャ、つまりSpaCap3Dを提案して、オブジェクトを記述に変換します。ここでは、特に3Dシーン内のオブジェクトの相対的な空間性を調査します。トークン間の空間関係学習目標とオブジェクト中心のデコーダーを介して空間性ガイド付きエンコーダーを設計し、正確で空間性が強化されたオブジェクトキャプションを生成します。 ScanReferとReferIt3Dの2つのベンチマークデータセットで評価すると、提案されたSpaCap3Dは、CIDEr @ 0.5IoUでベースラインメソッドScan2Capをそれぞれ4.94%と9.61%上回っています。ソースコードと補足ファイルを含むプロジェクトページは、https://SpaCap3D.github.io/で入手できます。
Dense captioning in 3D point clouds is an emerging vision-and-language task involving object-level 3D scene understanding. Apart from coarse semantic class prediction and bounding box regression as in traditional 3D object detection, 3D dense captioning aims at producing a further and finer instance-level label of natural language description on visual appearance and spatial relations for each scene object of interest. To detect and describe objects in a scene, following the spirit of neural machine translation, we propose a transformer-based encoder-decoder architecture, namely SpaCap3D, to transform objects into descriptions, where we especially investigate the relative spatiality of objects in 3D scenes and design a spatiality-guided encoder via a token-to-token spatial relation learning objective and an object-centric decoder for precise and spatiality-enhanced object caption generation. Evaluated on two benchmark datasets, ScanRefer and ReferIt3D, our proposed SpaCap3D outperforms the baseline method Scan2Cap by 4.94% and 9.61% in CIDEr@0.5IoU, respectively. Our project page with source code and supplementary files is available at https://SpaCap3D.github.io/ .
updated: Fri Apr 22 2022 13:07:37 GMT+0000 (UTC)
published: Fri Apr 22 2022 13:07:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト