画像ベースの動作予測は、ロボット操作に不可欠な技術の 1 つです。さまざまな予測モデルの中でも、さまざまな用途で最先端の性能を実現している普及モデルに注目します。画像ベースの動き予測では、拡散モデルは、画像コンテキストに基づいてランダムなガウス ノイズを段階的にノイズ除去することにより、状況に応じて適切な動きを確率的に予測します。拡散モデルはランダム ノイズを変更することでさまざまな動きを予測できますが、ランダム ノイズは画像のコンテキストとは独立してサンプリングされるため、画像に基づいてコンテキストに応じて適切な動きを予測できない場合があります。この問題を解決するために、R2-Diff を提案します。 R2-Diff では、画像の類似性に基づいてデータセットから取得されたモーションが、ランダム ノイズの代わりに拡散モデルに入力されます。次に、取得されたモーションは、拡散モデルのノイズ除去プロセスを通じて洗練されます。取得された動作は文脈にほぼ適合するため、文脈に応じた適切な動作の予測が容易になります。ただし、従来の拡散モデルは、取得された動きを改良するために最適化されていません。そこで、データセット内の最も近い動きの距離に基づいてハイパーパラメータを調整し、拡散モデルを最適化して改良する方法を提案します。さらに、推論において最近傍動きを検索するための画像ベースの検索手法を提案します。私たちが提案する検索は、動きの軌跡に沿った画像の特徴に基づいて類似性を効率的に計算します。我々は、R2-Diff が適切な動作を正確に予測し、ロボット操作における最近の最先端モデルと比較して高いタスク成功率を達成することを実証します。
Image-based motion prediction is one of the essential techniques for robot manipulation. Among the various prediction models, we focus on diffusion models because they have achieved state-of-the-art performance in various applications. In image-based motion prediction, diffusion models stochastically predict contextually appropriate motion by gradually denoising random Gaussian noise based on the image context. While diffusion models are able to predict various motions by changing the random noise, they sometimes fail to predict a contextually appropriate motion based on the image because the random noise is sampled independently of the image context. To solve this problem, we propose R2-Diff. In R2-Diff, a motion retrieved from a dataset based on image similarity is fed into a diffusion model instead of random noise. Then, the retrieved motion is refined through the denoising process of the diffusion model. Since the retrieved motion is almost appropriate to the context, it becomes easier to predict contextually appropriate motion. However, traditional diffusion models are not optimized to refine the retrieved motion. Therefore, we propose the method of tuning the hyperparameters based on the distance of the nearest neighbor motion among the dataset to optimize the diffusion model for refinement. Furthermore, we propose an image-based retrieval method to retrieve the nearest neighbor motion in inference. Our proposed retrieval efficiently computes the similarity based on the image features along the motion trajectory. We demonstrate that R2-Diff accurately predicts appropriate motions and achieves high task success rates compared to recent state-of-the-art models in robot manipulation.