模倣学習(IL)は、望ましい自律行動を学習する魅力的なアプローチです。ただし、ILに任意の目標を達成するよう指示することは困難です。対照的に、計画ベースのアルゴリズムは、ダイナミクスモデルと報酬関数を使用して目標を達成します。それでも、望ましい行動を呼び起こす報酬機能は、特定するのが難しいことがよくあります。この論文では、ILと目標指向計画の利点を組み合わせた模倣モデルを提案します。模倣モデルは、指定された目標を達成するために、解釈可能な専門家のような軌道を計画できる望ましい行動の確率的予測モデルです。制約のある目標領域、制約のない目標セット、エネルギーベースの目標など、柔軟な目標目標のファミリを導き出します。私たちの方法は、これらの目標を使用して行動をうまく誘導できることを示しています。私たちの方法は、ダイナミックなシミュレートされた自動運転タスクで、6つのILアプローチと計画ベースのアプローチを大幅に上回り、オンラインデータ収集なしで専門家のデモンストレーションから効率的に学習されます。また、このアプローチは、道路の反対側の目標など、十分に指定されていない目標に対して堅牢であることも示しています。
Imitation Learning (IL) is an appealing approach to learn desirable autonomous behavior. However, directing IL to achieve arbitrary goals is difficult. In contrast, planning-based algorithms use dynamics models and reward functions to achieve goals. Yet, reward functions that evoke desirable behavior are often difficult to specify. In this paper, we propose Imitative Models to combine the benefits of IL and goal-directed planning. Imitative Models are probabilistic predictive models of desirable behavior able to plan interpretable expert-like trajectories to achieve specified goals. We derive families of flexible goal objectives, including constrained goal regions, unconstrained goal sets, and energy-based goals. We show that our method can use these objectives to successfully direct behavior. Our method substantially outperforms six IL approaches and a planning-based approach in a dynamic simulated autonomous driving task, and is efficiently learned from expert demonstrations without online data collection. We also show our approach is robust to poorly specified goals, such as goals on the wrong side of the road.