arXiv reaDer
強化学習の機能を学習するための状態のシーケンシャルな性質の説明
Accounting for the Sequential Nature of States to Learn Features for Reinforcement Learning
この作業では、一般的な表現学習アプローチが失敗する原因となるデータの特性を調査します。特に、状態が大幅に重複しない環境では、変分オートエンコーダー(VAE)が有用な機能を学習できないことがわかりました。単純なgridworldドメインでこの失敗を示し、メトリック学習の形でソリューションを提供します。ただし、計量学習には距離関数の形での監視が必要であり、強化学習にはありません。これを克服するために、リプレイバッファ内の状態のシーケンシャルな性質を利用して、距離メトリックを概算し、時間的に近い状態も意味的に類似しているという仮定の下で、弱い監視信号を提供します。トリプレットロスを使用してVAEを変更し、このアプローチが、標準のVAEが失敗する環境で、追加の監視なしに、ダウンストリームタスクに役立つ機能を学習できることを示します。
In this work, we investigate the properties of data that cause popular representation learning approaches to fail. In particular, we find that in environments where states do not significantly overlap, variational autoencoders (VAEs) fail to learn useful features. We demonstrate this failure in a simple gridworld domain, and then provide a solution in the form of metric learning. However, metric learning requires supervision in the form of a distance function, which is absent in reinforcement learning. To overcome this, we leverage the sequential nature of states in a replay buffer to approximate a distance metric and provide a weak supervision signal, under the assumption that temporally close states are also semantically similar. We modify a VAE with triplet loss and demonstrate that this approach is able to learn useful features for downstream tasks, without additional supervision, in environments where standard VAEs fail.
updated: Thu May 12 2022 10:20:43 GMT+0000 (UTC)
published: Thu May 12 2022 10:20:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト