arXiv reaDer
視覚ベースの強化学習のための時間的-空間的因果的解釈
Temporal-Spatial Causal Interpretations for Vision-Based Reinforcement Learning
深層強化学習(RL)エージェントは、さまざまな複雑な制御タスクにますます熟練するようになっています。ただし、ブラックボックス機能の導入により、エージェントの行動は通常解釈が難しく、ユーザーの信頼を得ることが困難です。視覚ベースのRLにはいくつかの興味深い解釈方法がありますが、それらのほとんどは一時的な因果関係情報を明らかにすることができず、信頼性について疑問を投げかけています。この問題に対処するために、時間的空間的因果解釈(TSCI)モデルを提示して、エージェントの長期的な行動を理解します。これは、順次の意思決定に不可欠です。 TSCIモデルは、時間的因果関係の定式化に基づいて構築されています。これは、順次観測とRLエージェントの決定との間の時間的因果関係を反映しています。次に、別の因果発見ネットワークを使用して、時間的因果関係を満たすように制約されている時間的空間的因果的特徴を識別します。 TSCIモデルは再発エージェントに適用可能であり、トレーニング後に高効率で原因となる特徴を発見するために使用できます。経験的結果は、TSCIモデルが高解像度で鋭い注意マスクを生成して、視覚ベースのRLエージェントがどのように順次決定を行うかについてのほとんどの証拠を構成するタスク関連の時空間情報を強調できることを示しています。さらに、私たちの方法が時間的観点から視覚ベースのRLエージェントに貴重な因果解釈を提供できることをさらに示します。
Deep reinforcement learning (RL) agents are becoming increasingly proficient in a range of complex control tasks. However, the agent's behavior is usually difficult to interpret due to the introduction of black-box function, making it difficult to acquire the trust of users. Although there have been some interesting interpretation methods for vision-based RL, most of them cannot uncover temporal causal information, raising questions about their reliability. To address this problem, we present a temporal-spatial causal interpretation (TSCI) model to understand the agent's long-term behavior, which is essential for sequential decision-making. TSCI model builds on the formulation of temporal causality, which reflects the temporal causal relations between sequential observations and decisions of RL agent. Then a separate causal discovery network is employed to identify temporal-spatial causal features, which are constrained to satisfy the temporal causality. TSCI model is applicable to recurrent agents and can be used to discover causal features with high efficiency once trained. The empirical results show that TSCI model can produce high-resolution and sharp attention masks to highlight task-relevant temporal-spatial information that constitutes most evidence about how vision-based RL agents make sequential decisions. In addition, we further demonstrate that our method is able to provide valuable causal interpretations for vision-based RL agents from the temporal perspective.
updated: Mon Dec 06 2021 13:24:17 GMT+0000 (UTC)
published: Mon Dec 06 2021 13:24:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト