arXiv reaDer
360^∘ 不確実性を意識した構造知識伝達による高解像度深度推定
360^∘ High-Resolution Depth Estimation via Uncertainty-aware Structural Knowledge Transfer
最近、無指向性画像 (ODI) の人気が高まっています。ただし、角度解像度は透視画像よりも低くなる傾向があります。これにより、エッジなどの構造の詳細が劣化し、3D シーンの理解タスク、特に単眼深度推定の学習が困難になります。既存の方法は通常、高解像度 (HR) ODI を入力として活用し、完全に教師ありの学習によって構造の詳細を復元します。ただし、HR 深度のグラウンド トゥルース (GT) マップは、実際にはリソースに制約のあるデバイスのため、収集が困難または費用がかかる場合があります。したがって、このホワイト ペーパーでは、HR 深度 GT マップが利用できない場合に、低解像度 (LR) ODI から直接 HR 全方向深度を推定することを初めて調査します。私たちの重要なアイデアは、追加の推論コストなしで HR 深度推定の目標を達成するために、すぐに利用できる HR 画像モダリティと対応する LR 深度マップからシーン構造の知識を転送することです。具体的には、補助タスクとして ODI 超解像 (SR) を導入し、HR 深度推定のパフォーマンスを向上させるために、両方のタスクを弱く監視された方法で共同でトレーニングします。 ODI SR タスクは、HR 画像を予測するための入力として LR ODI を受け取り、不確実性の推定によってシーン構造の知識を抽出できるようにします。これに支えられて、シーン構造知識転送 (SSKT) モジュールが 2 つの主要コンポーネントで提案されています。まず、円筒陰的補間関数 (CIIF) を使用して、特徴のアップサンプリング用の円筒ニューラル補間の重みを学習し、2 つのタスク間で CIIF のパラメーターを共有します。次に、HR深度推定タスクがより多くのシーン構造知識を学習するのに役立つ追加の構造正則化を提供する機能蒸留(FD)損失を提案します。
Recently, omnidirectional images (ODIs) have become increasingly popular; however, their angular resolution tends to be lower than that of perspective images.This leads to degraded structural details such as edges, causing difficulty in learning 3D scene understanding tasks, especially monocular depth estimation. Existing methods typically leverage high-resolution (HR) ODI as the input, so as to recover the structural details via fully-supervised learning. However, the HR depth ground truth (GT) maps may be arduous or expensive to be collected due to resource-constrained devices in practice. Therefore, in this paper, we explore for the first time to estimate the HR omnidirectional depth directly from a low-resolution (LR) ODI, when no HR depth GT map is available. Our key idea is to transfer the scene structural knowledge from the readily available HR image modality and the corresponding LR depth maps to achieve the goal of HR depth estimation without extra inference cost. Specifically, we introduce ODI super-resolution (SR) as an auxiliary task and train both tasks collaboratively in a weakly supervised manner to boost the performance of HR depth estimation. The ODI SR task takes an LR ODI as the input to predict an HR image, enabling us to extract the scene structural knowledge via uncertainty estimation. Buttressed by this, a scene structural knowledge transfer (SSKT) module is proposed with two key components. First, we employ a cylindrical implicit interpolation function (CIIF) to learn cylindrical neural interpolation weights for feature up-sampling and share the parameters of CIIFs between the two tasks. Then, we propose a feature distillation (FD) loss that provides extra structural regularization to help the HR depth estimation task learn more scene structural knowledge.
updated: Mon Apr 17 2023 03:24:21 GMT+0000 (UTC)
published: Mon Apr 17 2023 03:24:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト