arXiv reaDer
生物学的視覚システムに触発された手がかりを使用した単眼深度推定
Monocular Depth Estimation Using Cues Inspired by Biological Vision Systems
単眼深度推定(MDE)は、シーンのRGB画像を同じカメラビューからのピクセル単位の深度マップに変換することを目的としています。情報が不足しているため、基本的に不適切です。考えられる多くの3Dシーンから単一の画像を取得できた可能性があります。したがって、MDEタスクの一部は、画像内のどの視覚的手がかりを深度推定に使用できるか、およびその方法を学習することです。注釈のコストによって制限されるトレーニングデータまたは計算能力によって制限されるネットワーク容量では、これは困難です。この作業では、視覚的な手がかり情報をモデルに明示的に注入することが深度推定に有益であることを示します。生物学的視覚システムの研究に続いて、相対的なサイズ、なじみのあるサイズ、絶対的なサイズの生物学的手がかりをエミュレートするために、セマンティック情報とオブジェクトサイズとそれらの関係の事前知識に焦点を当てます。最先端のセマンティックモデルとインスタンスセグメンテーションモデルを使用して外部情報を提供し、言語の埋め込みを利用してクラス間の関係情報をエンコードします。また、オブジェクトの実際の平均サイズの事前情報も提供します。この外部情報は、データの可用性の制限を克服し、特定のネットワークの限られた容量が既知の有用な手がかりに集中することを保証し、したがってパフォーマンスを向上させます。仮説を実験的に検証し、広く使用されているNYUD2屋内深度推定ベンチマークで提案されたモデルを評価します。結果は、意味情報、事前サイズ、インスタンスサイズがRGB画像とともに明示的に提供される場合、深度予測の改善を示しており、私たちの方法は任意の深度推定システムに簡単に適応できます。
Monocular depth estimation (MDE) aims to transform an RGB image of a scene into a pixelwise depth map from the same camera view. It is fundamentally ill-posed due to missing information: any single image can have been taken from many possible 3D scenes. Part of the MDE task is, therefore, to learn which visual cues in the image can be used for depth estimation, and how. With training data limited by cost of annotation or network capacity limited by computational power, this is challenging. In this work we demonstrate that explicitly injecting visual cue information into the model is beneficial for depth estimation. Following research into biological vision systems, we focus on semantic information and prior knowledge of object sizes and their relations, to emulate the biological cues of relative size, familiar size, and absolute size. We use state-of-the-art semantic and instance segmentation models to provide external information, and exploit language embeddings to encode relational information between classes. We also provide a prior on the average real-world size of objects. This external information overcomes the limitation in data availability, and ensures that the limited capacity of a given network is focused on known-helpful cues, therefore improving performance. We experimentally validate our hypothesis and evaluate the proposed model on the widely used NYUD2 indoor depth estimation benchmark. The results show improvements in depth prediction when the semantic information, size prior and instance size are explicitly provided along with the RGB images, and our method can be easily adapted to any depth estimation system.
updated: Thu May 12 2022 13:56:32 GMT+0000 (UTC)
published: Thu Apr 21 2022 19:42:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト