操作関係検出 (MRD) は、ロボットが正しい順序でオブジェクトをつかむように導くことを目的としています。これは、オブジェクトが積み重ねられたシーンでのつかみの安全性と信頼性を確保するために重要です。以前の研究では、事前定義されたビューから収集されたデータでトレーニングされたディープ ニューラル ネットワークによって操作関係が推測されましたが、非構造化環境での視覚的脱臼には限界があります。マルチビュー MRD の課題はドメイン シフトですが、マルチビュー データは空間でより包括的な情報を提供します。この論文では、2Dおよび3Dマルチビューデータによってトレーニングされる、新しいマルチビューフュージョンフレームワーク、つまりマルチビューMRDネットワーク(MMRDN)を提案します。異なるビューからの 2D データを共通の隠れ空間に投影し、一連のフォン ミーゼス フィッシャー分布に埋め込みを当てはめ、一貫した表現を学習します。さらに、3D データ内の位置情報を利用して、各オブジェクト ペアのポイント クラウドから K 個の Maximum Vertical Neighbors (KMVN) ポイントのセットを選択し、これら 2 つのオブジェクトの相対位置をエンコードします。最後に、マルチビュー 2D および 3D データの特徴を連結して、オブジェクトのペアワイズ関係を予測します。困難な REGRAD データセットに関する実験結果は、マルチビュー MRD タスクにおいて MMRDN が最先端の方法よりも優れていることを示しています。この結果は、合成データによってトレーニングされたモデルが現実世界のシナリオに移行できることも示しています。
Manipulation relationship detection (MRD) aims to guide the robot to grasp objects in the right order, which is important to ensure the safety and reliability of grasping in object stacked scenes. Previous works infer manipulation relationship by deep neural network trained with data collected from a predefined view, which has limitation in visual dislocation in unstructured environments. Multi-view data provide more comprehensive information in space, while a challenge of multi-view MRD is domain shift. In this paper, we propose a novel multi-view fusion framework, namely multi-view MRD network (MMRDN), which is trained by 2D and 3D multi-view data. We project the 2D data from different views into a common hidden space and fit the embeddings with a set of Von-Mises-Fisher distributions to learn the consistent representations. Besides, taking advantage of position information within the 3D data, we select a set of K Maximum Vertical Neighbors (KMVN) points from the point cloud of each object pair, which encodes the relative position of these two objects. Finally, the features of multi-view 2D and 3D data are concatenated to predict the pairwise relationship of objects. Experimental results on the challenging REGRAD dataset show that MMRDN outperforms the state-of-the-art methods in multi-view MRD tasks. The results also demonstrate that our model trained by synthetic data is capable to transfer to real-world scenarios.