具現化された質問応答(EmbodiedQA)では、エージェントが環境と対話して、ユーザーの質問に応答するために必要な情報を収集します。既存の作品は、この興味深い問題を解決するための確固たる基盤を築きました。しかし、現在のパフォーマンス、特にナビゲーションでのパフォーマンスは、EmbodiedQAが現代のアプローチには難しすぎる可能性があることを示唆しています。このホワイトペーパーでは、この問題を経験的に調査し、次のことを紹介します。1)有望なパフォーマンスを実現するシンプルでありながら効果的なベースライン。 2)実際にユーザーの質問に答える前に、エージェントがトレーニング済みモデルを新しい環境に適応させる機会を持つEmbodiedQAのより簡単で実用的な設定。この新しい設定では、いくつかのオブジェクトを新しい環境にランダムに配置し、蒸留ネットワークによってエージェントポリシーをアップグレードして、トレーニング済みモデルの汎化能力を保持します。 EmbodiedQA v1ベンチマークでは、標準的な設定の下で、シンプルなベースラインが最先端の技術に対して非常に競争力のある結果を達成しています。新しい設定では、導入された設定の小さな変更により、ナビゲーションが大幅に向上することがわかりました。
In Embodied Question Answering (EmbodiedQA), an agent interacts with an environment to gather necessary information for answering user questions. Existing works have laid a solid foundation towards solving this interesting problem. But the current performance, especially in navigation, suggests that EmbodiedQA might be too challenging for the contemporary approaches. In this paper, we empirically study this problem and introduce 1) a simple yet effective baseline that achieves promising performance; 2) an easier and practical setting for EmbodiedQA where an agent has a chance to adapt the trained model to a new environment before it actually answers users questions. In this new setting, we randomly place a few objects in new environments, and upgrade the agent policy by a distillation network to retain the generalization ability from the trained model. On the EmbodiedQA v1 benchmark, under the standard setting, our simple baseline achieves very competitive results to the-state-of-the-art; in the new setting, we found the introduced small change in settings yields a notable gain in navigation.