BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments
清掃、メンテナンス、食事の準備など、日常のさまざまな家事にまたがる、シミュレーションで100のアクティビティを備えた具体化されたAIのベンチマークであるBEHAVIORを紹介します。これらのアクティビティは、エージェントが現実の世界で直面しなければならない課題を再現することを目的として、現実的で多様かつ複雑になるように設計されています。このようなベンチマークを作成すると、アクティビティごとに3つの基本的な問題が発生します。定義(時間、場所、または人によって異なる場合があります)、シミュレーターでのインスタンス化、および評価です。 BEHAVIORは、3つのイノベーションでこれらに対処します。まず、アクティビティの初期条件と目標条件を表現するためのオブジェクト中心の述語論理ベースの記述言語を提案し、あらゆるアクティビティの多様なインスタンスの生成を可能にします。次に、BEHAVIORをサポートするために基盤となる環境に必要なシミュレーターにとらわれない機能を特定し、そのようなシミュレーターの1つでその実現を示します。第3に、タスクの進行状況と効率を絶対的および人間のデモンストレーターと比較して測定するための一連のメトリックを紹介します。人間のグラウンドトゥルースとして機能する仮想現実(VR)に500人の人間のデモンストレーションが含まれています。私たちの実験は、最先端の具体化されたAIソリューションでさえ、ベンチマークのアクティビティによって課せられるリアリズム、多様性、および複雑さのレベルに苦労していることを示しています。 BEHAVIORをbehavior.stanford.eduで公開し、新しい具体化されたAIソリューションの開発を促進および調整します。
We introduce BEHAVIOR, a benchmark for embodied AI with 100 activities in simulation, spanning a range of everyday household chores such as cleaning, maintenance, and food preparation. These activities are designed to be realistic, diverse, and complex, aiming to reproduce the challenges that agents must face in the real world. Building such a benchmark poses three fundamental difficulties for each activity: definition (it can differ by time, place, or person), instantiation in a simulator, and evaluation. BEHAVIOR addresses these with three innovations. First, we propose an object-centric, predicate logic-based description language for expressing an activity's initial and goal conditions, enabling generation of diverse instances for any activity. Second, we identify the simulator-agnostic features required by an underlying environment to support BEHAVIOR, and demonstrate its realization in one such simulator. Third, we introduce a set of metrics to measure task progress and efficiency, absolute and relative to human demonstrators. We include 500 human demonstrations in virtual reality (VR) to serve as the human ground truth. Our experiments demonstrate that even state of the art embodied AI solutions struggle with the level of realism, diversity, and complexity imposed by the activities in our benchmark. We make BEHAVIOR publicly available at to facilitate and calibrate the development of new embodied AI solutions.
