arXiv reaDer
視覚と言語のナビゲーションのための自己監視型3D意味表現学習
Self-supervised 3D Semantic Representation Learning for Vision-and-Language Navigation
Vision-and-Language Navigationタスクでは、具体化されたエージェントは言語の指示に従い、特定の目標にナビゲートします。これは多くの実際的なシナリオで重要であり、コンピュータビジョンとロボット工学の両方のコミュニティから大きな注目を集めています。ただし、既存の作品のほとんどはRGB画像のみを使用しており、シーンの3Dセマンティック情報を無視しています。この目的のために、ボクセルレベルの3Dセマンティック再構成を3Dセマンティック表現にエンコードするための新しい自己監視トレーニングフレームワークを開発します。具体的には、領域クエリタスクは、特定の3D領域内の特定のクラスのオブジェクトの有無を予測する口実タスクとして設計されています。次に、LSTMベースのナビゲーションモデルを構築し、提案された3Dセマンティック表現と視覚と言語のペアでのBERT言語機能を使用してトレーニングします。実験によると、提案されたアプローチは、R2Rデータセットの検証の見えない分割とテストの見えない分割でそれぞれ68%と66%の成功率を達成します。これは、視覚言語トランスフォーマーを利用するほとんどのRGBベースの方法よりも優れています。
In the Vision-and-Language Navigation task, the embodied agent follows linguistic instructions and navigates to a specific goal. It is important in many practical scenarios and has attracted extensive attention from both computer vision and robotics communities. However, most existing works only use RGB images but neglect the 3D semantic information of the scene. To this end, we develop a novel self-supervised training framework to encode the voxel-level 3D semantic reconstruction into a 3D semantic representation. Specifically, a region query task is designed as the pretext task, which predicts the presence or absence of objects of a particular class in a specific 3D region. Then, we construct an LSTM-based navigation model and train it with the proposed 3D semantic representations and BERT language features on vision-language pairs. Experiments show that the proposed approach achieves success rates of 68% and 66% on the validation unseen and test unseen splits of the R2R dataset respectively, which are superior to most of RGB-based methods utilizing vision-language transformers.
updated: Wed Jan 26 2022 07:43:47 GMT+0000 (UTC)
published: Wed Jan 26 2022 07:43:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト