arXiv reaDer
自己教師あり学習は、ピクセルからの強化学習を本当に改善しますか?
Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels?
自己教師あり学習 (SSL) がピクセルからのオンライン強化学習 (RL) を改善できるかどうかを調査します。 SSL と RL の損失を共同で最適化する対照強化学習フレームワーク (CURL など) を拡張し、さまざまな自己教師付き損失を使用して大量の実験を行います。私たちの観察によると、RL 用の既存の SSL フレームワークは、同じ量のデータと増強が使用されている場合、画像増強のみを利用するベースラインよりも有意な改善をもたらさないことが示唆されています。さらに進化的検索を実行して、RL の複数の自己教師付き損失の最適な組み合わせを見つけますが、そのような損失の組み合わせでさえ、慎重に設計された画像拡張のみを利用する方法よりも有意に優れていることがわかりません。実世界のロボット環境を含む複数の異なる環境でこれらのアプローチを一緒に評価した後、単一の自己監視型損失または画像増強方法がすべての環境を支配することはできず、SSL と RL の共同最適化のための現在のフレームワークは限られていることを確認します。最後に、複数の要因についてアブレーション研究を実施し、さまざまなアプローチで学習した表現の特性を示します。
We investigate whether self-supervised learning (SSL) can improve online reinforcement learning (RL) from pixels. We extend the contrastive reinforcement learning framework (e.g., CURL) that jointly optimizes SSL and RL losses and conduct an extensive amount of experiments with various self-supervised losses. Our observations suggest that the existing SSL framework for RL fails to bring meaningful improvement over the baselines only taking advantage of image augmentation when the same amount of data and augmentation is used. We further perform evolutionary searches to find the optimal combination of multiple self-supervised losses for RL, but find that even such a loss combination fails to meaningfully outperform the methods that only utilize carefully designed image augmentations. After evaluating these approaches together in multiple different environments including a real-world robot environment, we confirm that no single self-supervised loss or image augmentation method can dominate all environments and that the current framework for joint optimization of SSL and RL is limited. Finally, we conduct the ablation study on multiple factors and demonstrate the properties of representations learned with different approaches.
updated: Thu Oct 13 2022 02:07:05 GMT+0000 (UTC)
published: Fri Jun 10 2022 17:59:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト