arXiv reaDer
StereoPose: 背面ビュー NOCS によるステレオ画像からのカテゴリ レベルの 6D 透明オブジェクト ポーズ推定
StereoPose: Category-Level 6D Transparent Object Pose Estimation from Stereo Images via Back-View NOCS
カテゴリ レベルの姿勢推定の既存の方法のほとんどは、オブジェクトの点群に依存しています。ただし、透明なオブジェクトを考慮すると、通常、深度カメラは意味のあるデータをキャプチャできず、深刻なアーティファクトを含む点群が生成されます。高品質の点群がなければ、既存の方法は困難な透明オブジェクトに適用できません。この問題に取り組むために、透明なオブジェクトに最適な、カテゴリ レベルのオブジェクト ポーズ推定用の新しいステレオ イメージ フレームワークである StereoPose を紹介します。純粋なステレオ画像からのロバストな推定のために、カテゴリ レベルのポーズ推定をオブジェクト サイズの推定、初期のポーズの推定、およびポーズの改良に分離するパイプラインを開発します。次に、StereoPose は、正規化されたオブジェクト座標空間 ~(NOCS) での表現に基づいてオブジェクトの姿勢を推定します。画像コンテンツのエイリアシングの問題に対処するために、透明なオブジェクトの背面図 NOCS マップをさらに定義します。バックビュー NOCS は、コンテンツのエイリアシングによって生じるネットワーク学習のあいまいさを軽減し、透明なオブジェクトの背面にある有益な手がかりを活用して、より正確なポーズ推定を行うことを目的としています。ステレオ フレームワークのパフォーマンスをさらに向上させるために、StereoPose には、ステレオ機能融合のための視差アテンション モジュールと、ネットワーク予測のステレオ ビューの一貫性を向上させるためのエピポーラ損失が装備されています。パブリック TOD データセットでの広範な実験により、カテゴリ レベルの 6D 透明オブジェクトの姿勢推定に対する提案された StereoPose フレームワークの優位性が実証されました。
Most existing methods for category-level pose estimation rely on object point clouds. However, when considering transparent objects, depth cameras are usually not able to capture meaningful data, resulting in point clouds with severe artifacts. Without a high-quality point cloud, existing methods are not applicable to challenging transparent objects. To tackle this problem, we present StereoPose, a novel stereo image framework for category-level object pose estimation, ideally suited for transparent objects. For a robust estimation from pure stereo images, we develop a pipeline that decouples category-level pose estimation into object size estimation, initial pose estimation, and pose refinement. StereoPose then estimates object pose based on representation in the normalized object coordinate space~(NOCS). To address the issue of image content aliasing, we further define a back-view NOCS map for the transparent object. The back-view NOCS aims to reduce the network learning ambiguity caused by content aliasing, and leverage informative cues on the back of the transparent object for more accurate pose estimation. To further improve the performance of the stereo framework, StereoPose is equipped with a parallax attention module for stereo feature fusion and an epipolar loss for improving the stereo-view consistency of network predictions. Extensive experiments on the public TOD dataset demonstrate the superiority of the proposed StereoPose framework for category-level 6D transparent object pose estimation.
updated: Thu Nov 03 2022 08:36:09 GMT+0000 (UTC)
published: Thu Nov 03 2022 08:36:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト