視覚的な探索は、環境のナビゲート可能なすべての領域をできるだけ早く訪問することを目的としたタスクです。既存の方法では、タスクの標準ツールとして深層強化学習(RL)を採用しています。ただし、トレーニングデータとテストデータ間の統計的シフトに対して脆弱である傾向があり、トレーニングデータからの分布外(OOD)である新しい環境での一般化が不十分になります。この論文では、タスクに利用可能な誘導バイアスを利用することにより、一般化能力の向上を試みます。アドバンテージアクタークリティカル(A2C)メソッドをベースフレームワークとして探索ポリシーを学習するアクティブニューラルSLAM(ANS)を使用して、アクターと評論家によって表されるマッピングが特定の対称性を満たす必要があることを最初に指摘します。次に、俳優と評論家が本質的にこれらの対称性を達成するためのネットワーク設計を提案します。具体的には、標準の畳み込みの代わりにG畳み込みを使用し、この研究で新しく設計したセミグローバル極性プーリング(SGPP)レイヤーを批評家ネットワークの最後のセクションに挿入します。実験結果は、Gibsonデータセットでトレーニングし、MP3Dデータセットでテストすると、この方法でエリアカバレッジが8.1 m ^ 2増加し、新しい最先端技術を確立することを示しています。
Visual exploration is a task that seeks to visit all the navigable areas of an environment as quickly as possible. The existing methods employ deep reinforcement learning (RL) as the standard tool for the task. However, they tend to be vulnerable to statistical shifts between the training and test data, resulting in poor generalization over novel environments that are out-of-distribution (OOD) from the training data. In this paper, we attempt to improve the generalization ability by utilizing the inductive biases available for the task. Employing the active neural SLAM (ANS) that learns exploration policies with the advantage actor-critic (A2C) method as the base framework, we first point out that the mappings represented by the actor and the critic should satisfy specific symmetries. We then propose a network design for the actor and the critic to inherently attain these symmetries. Specifically, we use G-convolution instead of the standard convolution and insert the semi-global polar pooling (SGPP) layer, which we newly design in this study, in the last section of the critic network. Experimental results show that our method increases area coverage by 8.1 m^2 when trained on the Gibson dataset and tested on the MP3D dataset, establishing the new state-of-the-art.