arXiv reaDer
反復エネルギー最小化によるシーケンス モデルによる計画
Planning with Sequence Models through Iterative Energy Minimization
最近の研究では、シーケンス モデリングを強化学習 (RL) ポリシーのトレーニングに効果的に使用できることが示されています。ただし、既存のシーケンス モデルを計画に適用することの成功は、ある目標に到達するためのアクションの軌跡を取得したい場合に、それほど単純ではありません。シーケンス モデルの典型的な自己回帰生成手順は、予測された計画の有効性を制限する、以前のステップの逐次改良を排除します。この論文では、反復エネルギー最小化の考え方に基づいて計画をシーケンスモデルと統合するアプローチを提案し、そのような手順がさまざまなタスクで強化された RL パフォーマンスにどのようにつながるかを示します。マスクされた言語モデルをトレーニングして、行動の軌跡に対する暗黙のエネルギー関数をキャプチャし、最小限のエネルギーで行動の軌跡を見つけるように計画を策定します。この手順により、BabyAI および Atari 環境全体で最近のアプローチよりもパフォーマンスが向上する方法を示します。さらに、新しいタスクの一般化、テスト時間の制約の適応、および計画を一緒に構成する機能を含む、反復最適化手順の独自の利点を示します。プロジェクトのウェブサイト: https://hychen-naza.github.io/projects/LEAP
Recent works have shown that sequence modeling can be effectively used to train reinforcement learning (RL) policies. However, the success of applying existing sequence models to planning, in which we wish to obtain a trajectory of actions to reach some goal, is less straightforward. The typical autoregressive generation procedures of sequence models preclude sequential refinement of earlier steps, which limits the effectiveness of a predicted plan. In this paper, we suggest an approach towards integrating planning with sequence models based on the idea of iterative energy minimization, and illustrate how such a procedure leads to improved RL performance across different tasks. We train a masked language model to capture an implicit energy function over trajectories of actions, and formulate planning as finding a trajectory of actions with minimum energy. We illustrate how this procedure enables improved performance over recent approaches across BabyAI and Atari environments. We further demonstrate unique benefits of our iterative optimization procedure, involving new task generalization, test-time constraints adaptation, and the ability to compose plans together. Project website: https://hychen-naza.github.io/projects/LEAP
updated: Tue Mar 28 2023 17:53:22 GMT+0000 (UTC)
published: Tue Mar 28 2023 17:53:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト