ObjectGoalナビゲーションへの最先端のアプローチは強化学習に依存しており、通常、学習にはかなりの計算リソースと時間が必要です。インタラクションフリー学習(PONI)を使用したObjectGoalナビゲーションの潜在的な機能を提案します。これは、「どこを見ればよいか」というスキルを解きほぐすモジュラーアプローチです。オブジェクトと「(x、y)に移動する方法は?」私たちの重要な洞察は、「どこを見ればよいのか」ということです。純粋に知覚の問題として扱うことができ、環境の相互作用なしで学ぶことができます。これに対処するために、セマンティックマップを条件とする2つの補完的な潜在的関数を予測し、それらを使用して見えないオブジェクトを探す場所を決定するネットワークを提案します。トップダウンセマンティックマップのパッシブデータセットで教師あり学習を使用して潜在的な関数ネットワークをトレーニングし、それをモジュラーフレームワークに統合してObjectGoalナビゲーションを実行します。 GibsonとMatterport3Dでの実験は、私たちの方法が、トレーニングにかかる計算コストを最大1,600倍削減しながら、ObjectGoalナビゲーションの最先端を実現することを示しています。コードと事前トレーニング済みモデルが利用可能です:https://vision.cs.utexas.edu/projects/poni/
State-of-the-art approaches to ObjectGoal navigation rely on reinforcement learning and typically require significant computational resources and time for learning. We propose Potential functions for ObjectGoal Navigation with Interaction-free learning (PONI), a modular approach that disentangles the skills of `where to look?' for an object and `how to navigate to (x, y)?'. Our key insight is that `where to look?' can be treated purely as a perception problem, and learned without environment interactions. To address this, we propose a network that predicts two complementary potential functions conditioned on a semantic map and uses them to decide where to look for an unseen object. We train the potential function network using supervised learning on a passive dataset of top-down semantic maps, and integrate it into a modular framework to perform ObjectGoal navigation. Experiments on Gibson and Matterport3D demonstrate that our method achieves the state-of-the-art for ObjectGoal navigation while incurring up to 1,600x less computational cost for training. Code and pre-trained models are available: https://vision.cs.utexas.edu/projects/poni/