arXiv reaDer
カテゴリレベルのオブジェクトポーズ推定のためのビジュアルナビゲーションパースペクティブ
A Visual Navigation Perspective for Category-Level Object Pose Estimation
この論文は、単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定を研究します。ポーズ認識生成モデルの最近の進歩により、合成による分析を使用してこの困難なタスクに対処するための道が開かれました。アイデアは、生成された画像が観察と最もよく一致するまで、生成モデルの潜在変数のセット(ポーズ、形状、外観など)を順次更新することです。ただし、収束と効率は、この推論手順の2つの課題です。この論文では、視覚的ナビゲーションの観点から合成による分析の推論をより深く見て、この特定のタスクに適したナビゲーションポリシーを調査します。収束、ロバスト性、効率の観点から徹底的な比較を通じて、最急降下法、強化学習、模倣学習を含む3つの異なる戦略を評価します。さらに、単純なハイブリッドアプローチが効果的かつ効率的なソリューションにつながることを示します。さらに、これらの戦略を最先端の方法と比較し、既製のポーズ認識生成モデルを活用して、合成データセットと実世界のデータセットで優れたパフォーマンスを発揮します。
This paper studies category-level object pose estimation based on a single monocular image. Recent advances in pose-aware generative models have paved the way for addressing this challenging task using analysis-by-synthesis. The idea is to sequentially update a set of latent variables, e.g., pose, shape, and appearance, of the generative model until the generated image best agrees with the observation. However, convergence and efficiency are two challenges of this inference procedure. In this paper, we take a deeper look at the inference of analysis-by-synthesis from the perspective of visual navigation, and investigate what is a good navigation policy for this specific task. We evaluate three different strategies, including gradient descent, reinforcement learning and imitation learning, via thorough comparisons in terms of convergence, robustness and efficiency. Moreover, we show that a simple hybrid approach leads to an effective and efficient solution. We further compare these strategies to state-of-the-art methods, and demonstrate superior performance on synthetic and real-world datasets leveraging off-the-shelf pose-aware generative models.
updated: Sat Jul 23 2022 10:44:57 GMT+0000 (UTC)
published: Fri Mar 25 2022 10:57:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト