具体化された人工知能(AI)の研究のためのプラットフォームであるHabitatを紹介します。 Habitatは、非常に効率的なフォトリアリスティックな3Dシミュレーションで、エージェント(仮想ロボット)のトレーニングを可能にします。具体的には、Habitatは次のもので構成されます。(i)Habitat-Sim:構成可能なエージェント、センサー、および汎用3Dデータセット処理を備えた、柔軟で高性能な3Dシミュレーター。 Habitat-Simは高速です-Matterport3Dからシーンをレンダリングする場合、シングルスレッドで数千フレーム/秒(fps)を実行し、1つのGPUで10,000 fpsを超えるマルチプロセスに到達できます。 (ii)Habitat-API:組み込みAIアルゴリズムのエンドツーエンド開発のためのモジュール式の高レベルライブラリ-タスク(ナビゲーション、指示に従う、質問への回答など)の定義、組み込みエージェントの設定、トレーニング、ベンチマークこれらの大規模な工学的貢献により、これまで実行不可能であった、または「単に」実行不可能であった実験を必要とする科学的質問に答えることができます。具体的には、ポイントゴールナビゲーションのコンテキストでは、(1)2つの最近の研究から学習アプローチとSLAMアプローチの比較を再検討し、逆の結論の証拠を見つけます-学習が1桁以上の経験にスケーリングされた場合、学習はSLAMを上回る(2)最初のクロスデータセット一般化実験のトレーニングを実施し、複数のセンサーブラインド、RGB、RGBD、Dのx Matterport3D、Gibsonをテストし、データセット全体で深度(D)センサーを持つエージェントのみが一般化することを確認します。私たちのオープンソースプラットフォームとこれらの発見が、具現化されたAIの研究を前進させることを願っています。
We present Habitat, a platform for research in embodied artificial intelligence (AI). Habitat enables training embodied agents (virtual robots) in highly efficient photorealistic 3D simulation. Specifically, Habitat consists of: (i) Habitat-Sim: a flexible, high-performance 3D simulator with configurable agents, sensors, and generic 3D dataset handling. Habitat-Sim is fast -- when rendering a scene from Matterport3D, it achieves several thousand frames per second (fps) running single-threaded, and can reach over 10,000 fps multi-process on a single GPU. (ii) Habitat-API: a modular high-level library for end-to-end development of embodied AI algorithms -- defining tasks (e.g., navigation, instruction following, question answering), configuring, training, and benchmarking embodied agents. These large-scale engineering contributions enable us to answer scientific questions requiring experiments that were till now impracticable or 'merely' impractical. Specifically, in the context of point-goal navigation: (1) we revisit the comparison between learning and SLAM approaches from two recent works and find evidence for the opposite conclusion -- that learning outperforms SLAM if scaled to an order of magnitude more experience than previous investigations, and (2) we conduct the first cross-dataset generalization experiments train, test x Matterport3D, Gibson for multiple sensors blind, RGB, RGBD, D and find that only agents with depth (D) sensors generalize across datasets. We hope that our open-source platform and these findings will advance research in embodied AI.