arXiv reaDer
動的でまばらな部分観測環境における情報取得のためのセンサー制御
Sensor Control for Information Gain in Dynamic, Sparse and Partially Observed Environments
部分的に観測可能な、動的でまばらにサンプリングされた環境下での情報収集のための自律センサー制御のアプローチを提示します。関心のある空間で部分的な観測を行い、その空間に存在するエンティティに関する情報を最大化するセンサーを制御する問題を検討します。無線周波数 (RF) スペクトル監視のタスクに対するアプローチについて説明します。ここでの目標は、環境内の未知の動的信号を検索して追跡することです。この目的のために、予測と情報獲得報酬を使用して、報酬がまばらな環境で情報最大化ポリシーを学習する、Deep Anticipatory Network (DAN) Reinforcement Learning (RL) フレームワークの拡張機能を開発し、実証します。また、この問題を、実際の RF スペクトル/フィールドからのサンプル取得が限定的で高価な状況にまで拡張し、元の RL アルゴリズムのモデルベース バージョンを提案します。このバージョンでは、環境のモデルを繰り返し使用してコントローラーを微調整します。 RF フィールドから取得した限られたサンプルから改善されました。私たちのアプローチは、さまざまな報酬スキームと評価指標を使用して、さまざまな複雑さのシミュレートされた RF 環境でベースラインの専門家が設計したコントローラーに対してテストすることにより、徹底的に検証されました。結果は、私たちのシステムが標準の DAN アーキテクチャよりも優れており、手作業でコーディングされたいくつかのエージェントよりも柔軟で堅牢であることを示しています。また、私たちのアプローチは、エージェントが発信源からの変化に適応することを学ばなければならない非定常環境にも適応できることを示しています。
We present an approach for autonomous sensor control for information gathering under partially observable, dynamic and sparsely sampled environments. We consider the problem of controlling a sensor that makes partial observations in some space of interest such that it maximizes information about entities present in that space. We describe our approach for the task of Radio-Frequency (RF) spectrum monitoring, where the goal is to search for and track unknown, dynamic signals in the environment. To this end, we develop and demonstrate enhancements of the Deep Anticipatory Network (DAN) Reinforcement Learning (RL) framework that uses prediction and information-gain rewards to learn information-maximization policies in reward-sparse environments. We also extend this problem to situations in which taking samples from the actual RF spectrum/field is limited and expensive, and propose a model-based version of the original RL algorithm that fine-tunes the controller using a model of the environment that is iteratively improved from limited samples taken from the RF field. Our approach was thoroughly validated by testing against baseline expert-designed controllers in simulated RF environments of different complexity, using different rewards schemes and evaluation metrics. The results show that our system outperforms the standard DAN architecture and is more flexible and robust than several hand-coded agents. We also show that our approach is adaptable to non-stationary environments where the agent has to learn to adapt to changes from the emitting sources.
updated: Thu Nov 03 2022 00:03:14 GMT+0000 (UTC)
published: Thu Nov 03 2022 00:03:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト