MaskedFusion: Mask-based 6D Object Pose Estimation
 MaskedFusionは、RGB-Dデータを使用してオブジェクトの6Dポーズを推定するフレームワークであり、パイプラインの複数のサブタスクを活用して正確な6Dポーズを実現するアーキテクチャを備えています。 6D姿勢推定は、複雑な世界のオブジェクトと、現実の世界からデータをキャプチャする際に起こりうる多くの問題、たとえばデータのオクルージョン、トランケーション、ノイズのための未解決の課題です。正確な6Dポーズを実現すると、拡張現実でのロボットの把持やオブジェクトの位置決めなど、他の未解決の問題の結果が改善されます。 MaskedFusionは、オブジェクトマスクを使用して関連性のないデータを排除することにより、最先端を改善します。オブジェクトの6Dポーズを推定するニューラルネットワークにマスクを含めると、オブジェクトの形状を表す機能もあります。 MaskedFusionは、各サブタスクが目的を達成する異なるメソッドを持つことができるモジュラーパイプラインです。 MaskedFusionは、最新の方法と比較して、LineMODデータセットでADDメトリックを使用すると平均97.3%、YCB-Video DatasetでADD-S AUCメトリックを使用すると93.3%を達成しました。コードはGitHub(で入手できます。
MaskedFusion is a framework to estimate the 6D pose of objects using RGB-D data, with an architecture that leverages multiple sub-tasks in a pipeline to achieve accurate 6D poses. 6D pose estimation is an open challenge due to complex world objects and many possible problems when capturing data from the real world, e.g., occlusions, truncations, and noise in the data. Achieving accurate 6D poses will improve results in other open problems like robot grasping or positioning objects in augmented reality. MaskedFusion improves the state-of-the-art by using object masks to eliminate non-relevant data. With the inclusion of the masks on the neural network that estimates the 6D pose of an object we also have features that represent the object shape. MaskedFusion is a modular pipeline where each sub-task can have different methods that achieve the objective. MaskedFusion achieved 97.3% on average using the ADD metric on the LineMOD dataset and 93.3% using the ADD-S AUC metric on YCB-Video Dataset, which is an improvement, compared to the state-of-the-art methods. The code is available on GitHub (
updated: Wed Mar 18 2020 14:10:00 GMT+0000 (UTC)
published: Mon Nov 18 2019 17:09:19 GMT+0000 (UTC)
