arXiv reaDer
報酬系列分布による視覚強化学習の一般化
Generalization in Visual Reinforcement Learning with the Reward Sequence Distribution
部分的に観察されたマルコフ決定プロセス (POMDP) の一般化は、実際のシナリオで視覚強化学習 (VRL) をうまく適用するために重要です。広く使用されているアイデアは、POMDP の共通機能、つまり報酬と遷移ダイナミクスのタスク関連情報をエンコードするタスク関連表現を学習することです。タスクに関連し、視覚的な気晴らしに不変である潜在状態空間の遷移ダイナミクスはエージェントには知られていないため、既存の方法では代わりに観察空間の遷移ダイナミクスを使用して、遷移ダイナミクスのタスク関連情報を抽出します。ただし、観測空間でのこのような遷移ダイナミクスには、タスクに関係のない視覚的な気晴らしが含まれ、VRL メソッドの一般化パフォーマンスが低下します。この問題に取り組むために、開始観測と事前定義された後続アクション シーケンス (RSD-OA) を条件とする報酬シーケンス分布を提案します。 RSD-OA の魅力的な機能には次のようなものがあります。(1) RSD-OA は、遷移ダイナミクスからのタスクに関係のない情報なしで事前定義された後続のアクション シーケンスに条件付けられるため、視覚的な注意散漫に対して不変であり、(2) 報酬シーケンスは長い時間をキャプチャします。報酬と遷移ダイナミクスの両方における用語タスク関連情報。実験では、RSD-OA に基づく表現学習アプローチが目に見えない環境での一般化パフォーマンスを大幅に向上させ、視覚的な気晴らしを伴う DeepMind Control タスクでいくつかの最先端技術を上回ることを示しています。
Generalization in partially observed markov decision processes (POMDPs) is critical for successful applications of visual reinforcement learning (VRL) in real scenarios. A widely used idea is to learn task-relevant representations that encode task-relevant information of common features in POMDPs, i.e., rewards and transition dynamics. As transition dynamics in the latent state space -- which are task-relevant and invariant to visual distractions -- are unknown to the agents, existing methods alternatively use transition dynamics in the observation space to extract task-relevant information in transition dynamics. However, such transition dynamics in the observation space involve task-irrelevant visual distractions, degrading the generalization performance of VRL methods. To tackle this problem, we propose the reward sequence distribution conditioned on the starting observation and the predefined subsequent action sequence (RSD-OA). The appealing features of RSD-OA include that: (1) RSD-OA is invariant to visual distractions, as it is conditioned on the predefined subsequent action sequence without task-irrelevant information from transition dynamics, and (2) the reward sequence captures long-term task-relevant information in both rewards and transition dynamics. Experiments demonstrate that our representation learning approach based on RSD-OA significantly improves the generalization performance on unseen environments, outperforming several state-of-the-arts on DeepMind Control tasks with visual distractions.
updated: Sun Feb 19 2023 15:47:24 GMT+0000 (UTC)
published: Sun Feb 19 2023 15:47:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト