arXiv reaDer
ビジョンインフォームド深層強化学習によるランダム部分可観測環境でのパスファインディング
Pathfinding in Random Partially Observable Environments with Vision-Informed Deep Reinforcement Learning
深層強化学習は、Atari ビデオ ゲームから株式取引に至るまで、さまざまな環境で問題を解決するための手法です。この方法では、ディープ ニューラル ネットワーク モデルを活用して、特定の環境の観察に基づいて決定を下し、目標を達成するためのコストと報酬を組み込むことができる報酬関数を最大化することを目標としています。経路探索の目的で、報酬条件には、指定されたターゲット エリアへの到達と、移動のコストが含まれます。この作業では、複数の Deep Q-Network (DQN) エージェントが、最小限の移動時間でターゲット ゾーンに到達することを目標に、部分的に観測可能な環境で動作するようにトレーニングされています。エージェントは周囲の視覚的表現に基づいて動作するため、環境を観察する能力は制限されています。 DQN、DQN-GRU、および DQN-LSTM の比較を実行して、2 つの異なるタイプの入力で各モデルの機能を調べます。この評価を通じて、同等のトレーニングと類似のモデル アーキテクチャを使用することで、DQN モデルは反復モデルよりも優れたパフォーマンスを発揮できることが示されました。
Deep reinforcement learning is a technique for solving problems in a variety of environments, ranging from Atari video games to stock trading. This method leverages deep neural network models to make decisions based on observations of a given environment with the goal of maximizing a reward function that can incorporate cost and rewards for reaching goals. With the aim of pathfinding, reward conditions can include reaching a specified target area along with costs for movement. In this work, multiple Deep Q-Network (DQN) agents are trained to operate in a partially observable environment with the goal of reaching a target zone in minimal travel time. The agent operates based on a visual representation of its surroundings, and thus has a restricted capability to observe the environment. A comparison between DQN, DQN-GRU, and DQN-LSTM is performed to examine each models capabilities with two different types of input. Through this evaluation, it is been shown that with equivalent training and analogous model architectures, a DQN model is able to outperform its recurrent counterparts.
updated: Sun Sep 11 2022 06:32:00 GMT+0000 (UTC)
published: Sun Sep 11 2022 06:32:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト