大規模な360°入力のアクティブな視覚探査の問題に対処します。この設定では、カメラ帯域幅が制限されているアクティブなエージェントは、限られた離散時間ステップで表示方向を変更することにより、360°環境を探索します。そのため、世界を一連の狭い視野の「グリムプ」として観察し、次にどこを見るかを決定します。提案された方法は、深層強化学習や個別のネットワークをサイドキックとしてトレーニングする必要なく、以前の作品のパフォーマンスを大幅に超えています。私たちのシステムの重要なコンポーネントは、システムに垣間見る方向(360°画像内の位置)を認識させる空間メモリマップです。さらに、エージェントのセンサー帯域幅とタイムステップが制限されている場合、網膜のような一見の利点を強調します。最後に、訓練されたモデルを使用して、一見で観察された情報のみを使用してシーン全体の分類を行います。
We address the problem of active visual exploration of large 360° inputs. In our setting an active agent with a limited camera bandwidth explores its 360° environment by changing its viewing direction at limited discrete time steps. As such, it observes the world as a sequence of narrow field-of-view 'glimpses', deciding for itself where to look next. Our proposed method exceeds previous works' performance by a significant margin without the need for deep reinforcement learning or training separate networks as sidekicks. A key component of our system are the spatial memory maps that make the system aware of the glimpses' orientations (locations in the 360° image). Further, we stress the advantages of retina-like glimpses when the agent's sensor bandwidth and time-steps are limited. Finally, we use our trained model to do classification of the whole scene using only the information observed in the glimpses.