arXiv reaDer
3Dキーポイントナレッジエンジンを使用したピクセルレベルの2D画像セマンティクスの理解
Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge Engine
ピクセルレベルの2Dオブジェクトのセマンティック理解は、コンピュータービジョンの重要なトピックであり、機械が日常生活の中でオブジェクト(機能やアフォーダンスなど)を深く理解するのに役立ちます。ただし、以前のほとんどの方法では、2D画像の対応を直接トレーニングします。これは、エンドツーエンドですが、3D空間では多くの情報が失われます。この論文では、3Dドメインで画像に対応するセマンティクスを予測し、それらを2D画像に投影して、ピクセルレベルの理解を実現する新しい方法を提案します。現在の画像データセットにはない信頼性の高い3Dセマンティックラベルを取得するために、KeypointNetと呼ばれる大規模なキーポイントナレッジエンジンを構築します。このエンジンには、16のオブジェクトカテゴリから103,450のキーポイントと8,234の3Dモデルが含まれています。私たちの方法は、3Dビジョンの利点を活用し、オブジェクトの自己閉塞と可視性について明示的に推論できます。私たちの方法が、標準的なセマンティックベンチマークで比較およびさらに優れた結果をもたらすことを示します。
Pixel-level 2D object semantic understanding is an important topic in computer vision and could help machine deeply understand objects (e.g. functionality and affordance) in our daily life. However, most previous methods directly train on correspondences in 2D images, which is end-to-end but loses plenty of information in 3D spaces. In this paper, we propose a new method on predicting image corresponding semantics in 3D domain and then projecting them back onto 2D images to achieve pixel-level understanding. In order to obtain reliable 3D semantic labels that are absent in current image datasets, we build a large scale keypoint knowledge engine called KeypointNet, which contains 103,450 keypoints and 8,234 3D models from 16 object categories. Our method leverages the advantages in 3D vision and can explicitly reason about objects self-occlusion and visibility. We show that our method gives comparative and even superior results on standard semantic benchmarks.
updated: Sun Nov 21 2021 13:25:20 GMT+0000 (UTC)
published: Sun Nov 21 2021 13:25:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト