Grounding Human-to-Vehicle Advice for Self-driving Vehicles
 最近の成功は、ディープニューラルコントロールネットワークが自動運転車の重要なコンポーネントである可能性が高いことを示唆しています。これらのネットワークは、人間の行動を模倣するために大規模なデータセットでトレーニングされていますが、画像コンテンツのセマンティックな理解に欠けています。これにより、トレーニングデータと一致しない状況で脆弱になり、安全でない可能性があります。ここでは、トレーニングデータに人間からの自然言語アドバイスを追加することにより、この問題に対処することを提案します。アドバイスには、何をすべきか、どこに出席するかについてのガイダンスが含まれます。アドバイスを提供するエンドツーエンドの車両コントローラーをトレーニングする、アドバイスを提供するための最初のステップを紹介します。コントローラーは、シーン(視覚的注意)とコントロール(ステアリングと速度)への対応方法を調整します。アテンションメカニズムは、コントローラの動作をアドバイス内の顕著なオブジェクトに結び付けます。 Honda Research Institute-Advice Dataset(HAD)と呼ばれる、人間と車両のアドバイスを手動で注釈した、新しい推奨運転データセットでモデルを評価します。アドバイスを行うことでエンドツーエンドネットワークのパフォーマンスが向上する一方で、ネットワークはアドバイスによって提供されるさまざまな視覚的特徴を示すことを示しています。データセットはで入手できます。
Recent success suggests that deep neural control networks are likely to be a key component of self-driving vehicles. These networks are trained on large datasets to imitate human actions, but they lack semantic understanding of image contents. This makes them brittle and potentially unsafe in situations that do not match training data. Here, we propose to address this issue by augmenting training data with natural language advice from a human. Advice includes guidance about what to do and where to attend. We present the first step toward advice giving, where we train an end-to-end vehicle controller that accepts advice. The controller adapts the way it attends to the scene (visual attention) and the control (steering and speed). Attention mechanisms tie controller behavior to salient objects in the advice. We evaluate our model on a novel advisable driving dataset with manually annotated human-to-vehicle advice called Honda Research Institute-Advice Dataset (HAD). We show that taking advice improves the performance of the end-to-end network, while the network cues on a variety of visual features that are provided by advice. The dataset is available at
