arXiv reaDer
見て学ぶ
Learning by Watching
新しい状況や地理的な場所にいるとき、人間の運転手は他の人を見て、彼ら自身が決して実行したことがないかもしれない操作を学ぶという並外れた能力を持っています。対照的に、運転を学ぶための既存の技術は、完全に知られている観察と専門家のドライバーの行動を備えた計装された自我車両への直接アクセスを想定しているため、そのような可能性を排除します。ただし、他の人を見て学習する場合、非自我車両のこのような測定値に直接アクセスすることはできません。したがって、データが非常に価値のある資産と見なされるアプリケーションでは、現在のアプローチは、周囲の車両の間接的な観察を通じて取得できる可能性のあるトレーニング データの大部分を完全に破棄します。この重要な洞察に動機付けられて、州や専門家の行動についての完全な知識を必要とせずに運転方針を学習できるようにする、Learning by Watching(LbW)フレームワークを提案します。 LbWは、データを増やすために、つまり新しい視点と操作で、(1)自我車両の観測をそれらの視点に変換し、(2)専門家の行動を推測することにより、特定のシーンでの他の車両のデモンストレーションを利用します。 。当社のLbWエージェントは、より堅牢な運転ポリシーを学習すると同時に、まれで斬新なシナリオへのポリシーの迅速な適応など、データ効率の高い学習を可能にします。特に、LbWは、既存の方法で必要とされる利用可能な運転データの一部でも堅牢に運転し、合計運転データがわずか30分で元のCARLAベンチマークで平均92%、わずか10分で82%の平均成功率を達成しました。
When in a new situation or geographical location, human drivers have an extraordinary ability to watch others and learn maneuvers that they themselves may have never performed. In contrast, existing techniques for learning to drive preclude such a possibility as they assume direct access to an instrumented ego-vehicle with fully known observations and expert driver actions. However, such measurements cannot be directly accessed for the non-ego vehicles when learning by watching others. Therefore, in an application where data is regarded as a highly valuable asset, current approaches completely discard the vast portion of the training data that can be potentially obtained through indirect observation of surrounding vehicles. Motivated by this key insight, we propose the Learning by Watching (LbW) framework which enables learning a driving policy without requiring full knowledge of neither the state nor expert actions. To increase its data, i.e., with new perspectives and maneuvers, LbW makes use of the demonstrations of other vehicles in a given scene by (1) transforming the ego-vehicle's observations to their points of view, and (2) inferring their expert actions. Our LbW agent learns more robust driving policies while enabling data-efficient learning, including quick adaptation of the policy to rare and novel scenarios. In particular, LbW drives robustly even with a fraction of available driving data required by existing methods, achieving an average success rate of 92% on the original CARLA benchmark with only 30 minutes of total driving data and 82% with only 10 minutes.
updated: Thu Jun 10 2021 17:58:34 GMT+0000 (UTC)
published: Thu Jun 10 2021 17:58:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト