arXiv reaDer
X-Distill:クロスタスク蒸留による自己監視単眼深度の改善
X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task Distillation
この論文では、セマンティックセグメンテーションから深度推定までのクロスタスク知識蒸留を介して単眼深度の自己監視トレーニングを改善するための新しい方法、X-Distillを提案します。より具体的には、トレーニング中に、事前にトレーニングされたセマンティックセグメンテーション教師ネットワークを利用し、そのセマンティック知識を深度ネットワークに転送します。 2つの異なる視覚的タスクにわたるこのような知識の蒸留を可能にするために、予測された深度マップをセマンティックセグメンテーションマップに変換する、小さくてトレーニング可能なネットワークを導入します。このネットワークは、教師ネットワークによって監視できます。このように、この小さなネットワークは、トレーニング中にセマンティックセグメンテーション教師の監督から深度ネットワークへのバックプロパゲーションを可能にします。さらに、セマンティックセグメンテーションで一般的に使用されるオブジェクトクラスは深度に直接転送できないため、オブジェクトの視覚的および幾何学的特性を調査し、両方のタスクで共有できるオブジェクトをグループ化する新しい方法を設計します。私たちのアプローチはトレーニングプロセスを変更するだけであり、推論中に追加の計算が発生しないことは注目に値します。標準のKITTIベンチマークで提案されたアプローチの有効性を広範囲に評価し、最新の最先端技術と比較します。さらに、Make3Dでのアプローチの一般化可能性をテストします。全体として、結果は、私たちのアプローチが深度推定の精度を大幅に改善し、最先端技術を上回っていることを示しています。
In this paper, we propose a novel method, X-Distill, to improve the self-supervised training of monocular depth via cross-task knowledge distillation from semantic segmentation to depth estimation. More specifically, during training, we utilize a pretrained semantic segmentation teacher network and transfer its semantic knowledge to the depth network. In order to enable such knowledge distillation across two different visual tasks, we introduce a small, trainable network that translates the predicted depth map to a semantic segmentation map, which can then be supervised by the teacher network. In this way, this small network enables the backpropagation from the semantic segmentation teacher's supervision to the depth network during training. In addition, since the commonly used object classes in semantic segmentation are not directly transferable to depth, we study the visual and geometric characteristics of the objects and design a new way of grouping them that can be shared by both tasks. It is noteworthy that our approach only modifies the training process and does not incur additional computation during inference. We extensively evaluate the efficacy of our proposed approach on the standard KITTI benchmark and compare it with the latest state of the art. We further test the generalizability of our approach on Make3D. Overall, the results show that our approach significantly improves the depth estimation accuracy and outperforms the state of the art.
updated: Sun Oct 24 2021 19:47:14 GMT+0000 (UTC)
published: Sun Oct 24 2021 19:47:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト