arXiv reaDer
VIBR: 堅牢な視覚制御のためのビュー不変値関数の学習
VIBR: Learning View-Invariant Value Functions for Robust Visual Control
画像に対するエンドツーエンドの強化学習は、近年大幅な進歩を示しました。データベースのアプローチではデータ拡張とドメインのランダム化が活用されますが、表現学習方法ではタスク関連の特徴を学習するために補助損失が使用されます。しかし、気を散らすものや偽のノイズに満ちた視覚的に多様な環境では、強化は依然として困難を極めます。この研究では、その中核となる堅牢な視覚制御の問題に取り組み、マルチビュー トレーニングと不変予測を組み合わせて、分布外 (OOD) 汎化ギャップを削減する手法である VIBR (View-Invariant Bellman Residuals) を提示します。 RLベースの視覚運動制御。私たちのモデルフリーのアプローチは、追加の表現学習目標を必要とせず、限られた追加の計算コストでベースラインのパフォーマンスを向上させます。我々は、視覚摂動が大きい複雑な視覚運動制御環境において、VIBR が既存の手法よりも優れた性能を発揮することを示します。私たちのアプローチは、Distracting Control Suite ベンチマークで最先端の結果を達成しています。これは、現在の方法ではまだ解決されていない挑戦的なベンチマークであり、OOD の一般化と外挿機能だけでなく、多数の視覚的摂動に対する堅牢性を評価します。
End-to-end reinforcement learning on images showed significant progress in the recent years. Data-based approach leverage data augmentation and domain randomization while representation learning methods use auxiliary losses to learn task-relevant features. Yet, reinforcement still struggles in visually diverse environments full of distractions and spurious noise. In this work, we tackle the problem of robust visual control at its core and present VIBR (View-Invariant Bellman Residuals), a method that combines multi-view training and invariant prediction to reduce out-of-distribution (OOD) generalization gap for RL based visuomotor control. Our model-free approach improve baselines performances without the need of additional representation learning objectives and with limited additional computational cost. We show that VIBR outperforms existing methods on complex visuo-motor control environment with high visual perturbation. Our approach achieves state-of the-art results on the Distracting Control Suite benchmark, a challenging benchmark still not solved by current methods, where we evaluate the robustness to a number of visual perturbators, as well as OOD generalization and extrapolation capabilities.
updated: Wed Jun 14 2023 14:37:34 GMT+0000 (UTC)
published: Wed Jun 14 2023 14:37:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト