arXiv reaDer
How to improve CNN-based 6-DoF camera pose estimation
 畳み込みニューラルネットワーク(CNN)と転送学習は、最近6自由度(6-DoF)のカメラポーズ推定に使用されています。視覚的なSLAMベースのアプローチと同じ精度には達しておらず、特定の環境に制限されていますが、堅牢性に優れており、単一の画像にも適用できます。この論文では、PoseNet [1]を調査し、データセットの特性に基づいて修正を調査し、ポーズ推定の精度を向上させます。特に、画像の解像度よりも視野の重要性を強調しています。過剰適合を減らすためのデータ拡張スキームを提示します。 Long-Short-Term-Memory(LSTM)セルの効果を研究しています。最後に、これらの変更を組み合わせて、単眼CNNベースのカメラポーズ回帰に対するPoseNetのパフォーマンスを改善します。
Convolutional neural networks (CNNs) and transfer learning have recently been used for 6 degrees of freedom (6-DoF) camera pose estimation. While they do not reach the same accuracy as visual SLAM-based approaches and are restricted to a specific environment, they excel in robustness and can be applied even to a single image. In this paper, we study PoseNet [1] and investigate modifications based on datasets' characteristics to improve the accuracy of the pose estimates. In particular, we emphasize the importance of field-of-view over image resolution; we present a data augmentation scheme to reduce overfitting; we study the effect of Long-Short-Term-Memory (LSTM) cells. Lastly, we combine these modifications and improve PoseNet's performance for monocular CNN based camera pose regression.
updated: Thu Nov 28 2019 10:38:42 GMT+0000 (UTC)
published: Mon Sep 23 2019 12:12:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト