自然言語の指示に従ってナビゲートするようにロボットに命令することは、基礎となる言語理解とロボット工学の長期的な目標です。しかし、視覚言語ナビゲーション(VLN)に関する以前の研究によると、主要な言語は英語です。英語を超えてさまざまな言語を話す人々にサービスを提供するために、バイリンガルのRoom-to-Room(BL-R2R)データセットを収集し、元のベンチマークを新しい中国語の指示で拡張します。この新しく導入されたデータセットに基づいて、エージェントが既存の英語の指示でトレーニングされ、ゼロショット学習シナリオの下で別の言語で効果的にナビゲートする方法を研究します。ターゲット言語のトレーニングデータがない場合、ターゲット言語のトレーニングデータに完全にアクセスできるモデルと比較しても、このモデルは競争力のある結果を示します。さらに、一定量のターゲット言語トレーニングデータが与えられた場合のモデルの転送能力を調査します。
Commanding a robot to navigate with natural language instructions is a long-term goal for grounded language understanding and robotics. But the dominant language is English, according to previous studies on vision-language navigation (VLN). To go beyond English and serve people speaking different languages, we collect a bilingual Room-to-Room (BL-R2R) dataset, extending the original benchmark with new Chinese instructions. Based on this newly introduced dataset, we study how an agent can be trained on existing English instructions but navigate effectively with another language under a zero-shot learning scenario. Without any training data of the target language, our model shows competitive results even compared to a model with full access to the target language training data. Moreover, we investigate the transferring ability of our model when given a certain amount of target language training data.