人間の環境で動作するロボットは、オブジェクトが以前は見えなかったとしても、オブジェクトを意味的に意味のある構成に再配置できなければなりません。この作業では、段階的な指示なしで物理的に有効な構造を構築する問題に焦点を当てています。 StructDiffusion は、拡散モデルとオブジェクト中心のトランスフォーマーを組み合わせて、部分ビュー ポイント クラウドと「テーブルを設定する」などの高レベル言語の目標が与えられた構造を構築します。私たちの方法は、1 つのモデルを使用して、複数の困難な言語条件付きマルチステップ 3D 計画タスクを実行できます。 StructDiffusion は、特定の構造でトレーニングされた既存のマルチモーダル トランスフォーマー モデルよりも、目に見えないオブジェクトから物理的に有効な構造を組み立てる成功率を平均 16% 向上させます。シミュレーションと現実世界の再配置タスクの両方で、差し出されたオブジェクトの実験を示します。重要なのは、拡散モデルと衝突弁別モデルの両方を統合することで、以前に見えなかったオブジェクトを再配置するときに、他の方法よりも一般化を改善する方法を示すことです。ビデオとその他の結果については、当社の Web サイト (https://structdiffusion.github.io/) を参照してください。
Robots operating in human environments must be able to rearrange objects into semantically-meaningful configurations, even if these objects are previously unseen. In this work, we focus on the problem of building physically-valid structures without step-by-step instructions. We propose StructDiffusion, which combines a diffusion model and an object-centric transformer to construct structures given partial-view point clouds and high-level language goals, such as "set the table". Our method can perform multiple challenging language-conditioned multi-step 3D planning tasks using one model. StructDiffusion even improves the success rate of assembling physically-valid structures out of unseen objects by on average 16% over an existing multi-modal transformer model trained on specific structures. We show experiments on held-out objects in both simulation and on real-world rearrangement tasks. Importantly, we show how integrating both a diffusion model and a collision-discriminator model allows for improved generalization over other methods when rearranging previously-unseen objects. For videos and additional results, see our website: https://structdiffusion.github.io/.