この論文は、ニューラルネットワークの表現能力を活用して、逆強化学習(IRL)問題を解決する文脈で複雑な非線形報酬関数を近似するための一般的なフレームワークを提示します。このコンテキストで、IRLの最大エントロピーパラダイムが、ディープアーキテクチャの効率的なトレーニングに自然に役立つことを示します。テスト時には、このアプローチにより、デモンストレーションの回数に関係なく計算が複雑になり、生涯学習シナリオのアプリケーションに特に適しています。当社のアプローチは、非常に多様な報酬構造に基づく代替ベンチマークを上回る一方で、既存のベンチマークの最先端に匹敵するパフォーマンスを達成します。最後に、幅1の完全な畳み込みニューラルネットワーク(FCNN)の単純化されたサブクラスに相当する基本アーキテクチャを拡張して、事前計算された空間的特徴への依存を排除し、生の入力表現を処理するために、より大きな畳み込みを含めます。
This paper presents a general framework for exploiting the representational capacity of neural networks to approximate complex, nonlinear reward functions in the context of solving the inverse reinforcement learning (IRL) problem. We show in this context that the Maximum Entropy paradigm for IRL lends itself naturally to the efficient training of deep architectures. At test time, the approach leads to a computational complexity independent of the number of demonstrations, which makes it especially well-suited for applications in life-long learning scenarios. Our approach achieves performance commensurate to the state-of-the-art on existing benchmarks while exceeding on an alternative benchmark based on highly varying reward structures. Finally, we extend the basic architecture - which is equivalent to a simplified subclass of Fully Convolutional Neural Networks (FCNNs) with width one - to include larger convolutions in order to eliminate dependency on precomputed spatial features and work on raw input representations.