arXiv reaDer
ボクセル情報に基づく言語の基礎
Voxel-informed Language Grounding
自然の2D画像に適用される自然言語は、基本的に3Dの世界を表します。ボクセル情報に基づく言語グラウンダー(VLG)を紹介します。これは、体積再構成モデルを使用して視覚入力から導出されたボクセルマップの形式で3D幾何学的情報を活用する言語グラウンディングモデルです。 VLGが、オブジェクト参照ゲームタスクであるSNAREの接地精度を大幅に向上させることを示します。これを書いている時点で、VLGはSNAREリーダーボードでトップの位置を占めており、2.0%の絶対的な改善でSOTAの結果を達成しています。
Natural language applied to natural 2D images describes a fundamentally 3D world. We present the Voxel-informed Language Grounder (VLG), a language grounding model that leverages 3D geometric information in the form of voxel maps derived from the visual input using a volumetric reconstruction model. We show that VLG significantly improves grounding accuracy on SNARE, an object reference game task. At the time of writing, VLG holds the top place on the SNARE leaderboard, achieving SOTA results with a 2.0% absolute improvement.
updated: Thu May 19 2022 17:24:04 GMT+0000 (UTC)
published: Thu May 19 2022 17:24:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト