私たちは、RGBカメラからの視覚入力に依存しながら、多くの可動オブジェクトを使用して視覚的にガイドされた再配置計画の問題に対処します。つまり、一連のオブジェクトを初期配置から目的の配置に移動する一連のアクションを見つけます。そのために、2つの主要な貢献に依存する完全なパイプラインを紹介します。まず、モンテカルロツリー検索の探索戦略に基づく、効率的でスケーラブルな再配置計画方法を紹介します。探査と開発の間の適切なトレードオフのために、私たちの方法は、(i)オブジェクトの数に合わせてスケーリングされ、(ii)他の最新技術と比較して必要な移動の数が少ないソリューションを見つけます。アプローチ。多くのアプローチとは逆に、バッファスペースを利用する必要がないことに注意してください。第2に、シーン内の可動オブジェクトを正確に特定するために、合成データのみでトレーニングされたディープニューラルネットワークを使用して、単一の未校正RGBカメラからロバストなマルチオブジェクトワークスペースの状態を推定する統合アプローチを開発します。 25のオブジェクトを再配置するプランを計算するのに60ミリ秒しか必要としない、さまざまな再配置計画インスタンスを解くことによって、実際のUR-5ロボットアームでいくつかの実験を行い、マルチオブジェクト視覚ガイド操作パイプラインを検証します。さらに、私たちのシステムはカメラの動きに反応せず、外部の摂動から正常に回復できることを示しています。補足ビデオ、ソースコード、事前トレーニング済みモデルは、https://ylabbe.github.io/rearrangement-planningで入手できます。
We address the problem of visually guided rearrangement planning with many movable objects, i.e., finding a sequence of actions to move a set of objects from an initial arrangement to a desired one, while relying on visual inputs coming from an RGB camera. To do so, we introduce a complete pipeline relying on two key contributions. First, we introduce an efficient and scalable rearrangement planning method, based on a Monte-Carlo Tree Search exploration strategy. We demonstrate that because of its good trade-off between exploration and exploitation our method (i) scales well with the number of objects while (ii) finding solutions which require a smaller number of moves compared to the other state-of-the-art approaches. Note that on the contrary to many approaches, we do not require any buffer space to be available. Second, to precisely localize movable objects in the scene, we develop an integrated approach for robust multi-object workspace state estimation from a single uncalibrated RGB camera using a deep neural network trained only with synthetic data. We validate our multi-object visually guided manipulation pipeline with several experiments on a real UR-5 robotic arm by solving various rearrangement planning instances, requiring only 60 ms to compute the plan to rearrange 25 objects. In addition, we show that our system is insensitive to camera movements and can successfully recover from external perturbations. Supplementary video, source code and pre-trained models are available at https://ylabbe.github.io/rearrangement-planning.