arXiv reaDer
Vote2Cap-DETR によるエンドツーエンドの 3D 高密度キャプション
End-to-End 3D Dense Captioning with Vote2Cap-DETR
3D 高密度キャプションは、関連するオブジェクト領域でローカライズされた複数のキャプションを生成することを目的としています。既存のメソッドは、多数の手作りのコンポーネントを備えた洗練された「検出してから記述する」パイプラインに従います。ただし、これらの手作りのコンポーネントは、さまざまなシーン間でオブジェクトの空間分布とクラス分布が雑然としていると、最適なパフォーマンスが得られません。このホワイト ペーパーでは、最近人気のある DEtection TRansformer (DETR) に基づいた、シンプルでありながら効果的な変換フレームワーク Vote2Cap-DETR を提案します。従来技術と比較して、私たちのフレームワークにはいくつかの魅力的な利点があります。セット予測方式での高密度キャプション。 2) 2 段階方式とは対照的に、本手法は 1 段階で検出とキャプションを実行できます。 3) 一般的に使用される 2 つのデータセット、ScanRefer と Nr3D での詳細な実験では、Vote2Cap-DETR が現在の最先端技術を CIDEr@0.5IoU でそれぞれ 11.13% と 7.11% 上回っていることが実証されています。コードは近日公開予定です。
3D dense captioning aims to generate multiple captions localized with their associated object regions. Existing methods follow a sophisticated ``detect-then-describe'' pipeline equipped with numerous hand-crafted components. However, these hand-crafted components would yield suboptimal performance given cluttered object spatial and class distributions among different scenes. In this paper, we propose a simple-yet-effective transformer framework Vote2Cap-DETR based on recent popular DEtection TRansformer (DETR). Compared with prior arts, our framework has several appealing advantages: 1) Without resorting to numerous hand-crafted components, our method is based on a full transformer encoder-decoder architecture with a learnable vote query driven object decoder, and a caption decoder that produces the dense captions in a set-prediction manner. 2) In contrast to the two-stage scheme, our method can perform detection and captioning in one-stage. 3) Without bells and whistles, extensive experiments on two commonly used datasets, ScanRefer and Nr3D, demonstrate that our Vote2Cap-DETR surpasses current state-of-the-arts by 11.13% and 7.11% in CIDEr@0.5IoU, respectively. Codes will be released soon.
updated: Fri Jan 06 2023 13:46:45 GMT+0000 (UTC)
published: Fri Jan 06 2023 13:46:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト