人間が仮想レーシングゲームをプレイするときは、ゲーム画面の視覚的な環境情報を使用して、環境内のルールを理解します。対照的に、人間のプレーヤーよりも優れた最先端のリアルなレーシングゲームAIエージェントは、画像ベースの環境情報ではなく、環境によって提供されるコンパクトで正確な測定値を使用します。この論文では、ビジョンベースの制御アルゴリズムを提案し、忠実度の高いリアルレーシングシミュレーターとして知られるグランツーリスモスポーツ(GTS)を使用して、リアルレーシングシナリオで同じ条件下での人間のプレーヤーのパフォーマンスと比較します。提案手法では、従来の最先端手法での観測の一部を構成する環境情報を、ゲーム画面画像から抽出した特徴表現に置き換える。提案された方法が、ゲーム画面画像を高次元入力として使用しても、高速運転シナリオの下で専門家レベルの車両制御を実行することを示します。さらに、タイムトライアルタスクでGTSに組み込まれているAIを上回り、そのスコアは上位10%の約28,000人の人間のプレーヤーの中に位置しています。
When humans play virtual racing games, they use visual environmental information on the game screen to understand the rules within the environments. In contrast, a state-of-the-art realistic racing game AI agent that outperforms human players does not use image-based environmental information but the compact and precise measurements provided by the environment. In this paper, a vision-based control algorithm is proposed and compared with human player performances under the same conditions in realistic racing scenarios using Gran Turismo Sport (GTS), which is known as a high-fidelity realistic racing simulator. In the proposed method, the environmental information that constitutes part of the observations in conventional state-of-the-art methods is replaced with feature representations extracted from game screen images. We demonstrate that the proposed method performs expert human-level vehicle control under high-speed driving scenarios even with game screen images as high-dimensional inputs. Additionally, it outperforms the built-in AI in GTS in a time trial task, and its score places it among the top 10% approximately 28,000 human players.