家庭やオフィスのタスクを実行する言語誘導ロボットは、世界をナビゲートして対話する必要があります。視覚的な観察や環境で取るべき行動に対して言語の指示を接地することは、未解決の課題です。 Embodied BERT(EmBERT)は、トランスフォーマーベースのモデルであり、言語条件付きタスクを完了するために、長い時間的範囲にわたる高次元のマルチモーダル入力に対応できます。さらに、EmBERTトレーニング用のオブジェクトナビゲーションターゲットを導入することにより、非対話型エージェントに使用される成功したオブジェクト中心のナビゲーションモデルと言語ガイド付きビジュアルタスク完了ベンチマークALFREDの間のギャップを埋めます。 ALFREDベンチマークで競争力のあるパフォーマンスを達成し、EmBERTは、ALFREDの長期にわたる高密度のマルチモーダル履歴を正常に処理する最初のトランスベースのモデルであり、オブジェクト中心のナビゲーションターゲットを利用する最初のALFREDモデルです。
Language-guided robots performing home and office tasks must navigate in and interact with the world. Grounding language instructions against visual observations and actions to take in an environment is an open challenge. We present Embodied BERT (EmBERT), a transformer-based model which can attend to high-dimensional, multi-modal inputs across long temporal horizons for language-conditioned task completion. Additionally, we bridge the gap between successful object-centric navigation models used for non-interactive agents and the language-guided visual task completion benchmark, ALFRED, by introducing object navigation targets for EmBERT training. We achieve competitive performance on the ALFRED benchmark, and EmBERT marks the first transformer-based model to successfully handle the long-horizon, dense, multi-modal histories of ALFRED, and the first ALFRED model to utilize object-centric navigation targets.