arXiv reaDer
Depth-Relative Self Attention for Monocular Depth Estimation
単一の RGB 画像では正確な深度の手がかりが不完全であるため、単眼深度の推定は非常に困難です。この制限を克服するために、ディープ ニューラル ネットワークは、RGB 情報から抽出されたサイズ、陰影、テクスチャなどのさまざまな視覚的ヒントに依存しています。ただし、そのようなヒントが過度に悪用されると、包括的なビューを考慮せずに、ネットワークが RGB 情報に偏る可能性があることがわかります。相対深度を自己注意のガイダンスとして使用する、RElative Depth Transformer (RED-T) という名前の新しい深度推定モデルを提案します。具体的には、このモデルは、深度が近いピクセルに高い注意の重みを割り当て、深度が遠いピクセルに低い注意の重みを割り当てます。その結果、同様の深さの特徴が互いに類似する可能性が高くなり、視覚的なヒントが誤用される可能性が低くなります。提案されたモデルは、単眼深度推定ベンチマークで競争力のある結果を達成し、RGB 情報への偏りが少ないことを示します。さらに、目に見えない深度に対するモデルの堅牢性を評価するために、トレーニング中に観測可能な深度範囲を制限する新しい単眼深度推定ベンチマークを提案します。
Monocular depth estimation is very challenging because clues to the exact depth are incomplete in a single RGB image. To overcome the limitation, deep neural networks rely on various visual hints such as size, shade, and texture extracted from RGB information. However, we observe that if such hints are overly exploited, the network can be biased on RGB information without considering the comprehensive view. We propose a novel depth estimation model named RElative Depth Transformer (RED-T) that uses relative depth as guidance in self-attention. Specifically, the model assigns high attention weights to pixels of close depth and low attention weights to pixels of distant depth. As a result, the features of similar depth can become more likely to each other and thus less prone to misused visual hints. We show that the proposed model achieves competitive results in monocular depth estimation benchmarks and is less biased to RGB information. In addition, we propose a novel monocular depth estimation benchmark that limits the observable depth range during training in order to evaluate the robustness of the model for unseen depths.
updated: Tue Apr 25 2023 14:20:31 GMT+0000 (UTC)
published: Tue Apr 25 2023 14:20:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト