現実の世界では、自動運転エージェントは、事前にトレーニングされたモデルが信頼できないという予期しない状況に満ちた非常に動的な環境をナビゲートします。このような状況では、車両がすぐに利用できるのは多くの場合、人間のオペレーターだけです。継続的かつ動的な環境でナビゲートし、感覚運動に基づいた対話を通じて人間と通信する能力を備えた自動運転エージェントを強化することが重要になります。この目的のために、不規則なイベントを処理するための道路上の対話 (DOROTHIE) を紹介します。これは、自動運転エージェントとの状況に応じた通信に関する経験的研究をサポートするために、その場で予期しない状況を作成できる新しい対話型シミュレーション プラットフォームです。このプラットフォームに基づいて、合計 8415 の発話、約 18.7 時間の制御ストリーム、および 2.9 時間のトリミングされたオーディオを含む 183 回の試行のナビゲーション ベンチマークである Siated Dialogue Navigation (SDN) を作成しました。 SDN は、人間からの対話の動きを予測し、独自の対話の動きと物理的なナビゲーション アクションを生成するエージェントの能力を評価するために開発されました。さらに、これらの SDN タスク用のトランスフォーマー ベースのベースライン モデルを開発しました。私たちの実験結果は、非常に動的な環境での言語ガイド付きナビゲーションは、エンドツーエンド モデルにとって非常に難しいタスクであることを示しています。これらの結果は、堅牢な自動運転エージェントに関する将来の研究に向けた洞察を提供します。 DOROTHIE プラットフォーム、SDN ベンチマーク、およびベースライン モデルのコードは、https://github.com/sled-group/DOROTHIE で入手できます。
In the real world, autonomous driving agents navigate in highly dynamic environments full of unexpected situations where pre-trained models are unreliable. In these situations, what is immediately available to vehicles is often only human operators. Empowering autonomous driving agents with the ability to navigate in a continuous and dynamic environment and to communicate with humans through sensorimotor-grounded dialogue becomes critical. To this end, we introduce Dialogue On the ROad To Handle Irregular Events (DOROTHIE), a novel interactive simulation platform that enables the creation of unexpected situations on the fly to support empirical studies on situated communication with autonomous driving agents. Based on this platform, we created the Situated Dialogue Navigation (SDN), a navigation benchmark of 183 trials with a total of 8415 utterances, around 18.7 hours of control streams, and 2.9 hours of trimmed audio. SDN is developed to evaluate the agent's ability to predict dialogue moves from humans as well as generate its own dialogue moves and physical navigation actions. We further developed a transformer-based baseline model for these SDN tasks. Our empirical results indicate that language guided-navigation in a highly dynamic environment is an extremely difficult task for end-to-end models. These results will provide insight towards future work on robust autonomous driving agents. The DOROTHIE platform, SDN benchmark, and code for the baseline model are available at https://github.com/sled-group/DOROTHIE.