多くの実際のアプリケーションでは、画像内のオブジェクトの相対的な深さは、シーンを理解するために重要です。最近のアプローチは、主に、問題を回帰タスクとして扱うことにより、単眼画像の深度予測の問題に取り組んでいます。しかし、そもそも順序関係に関心があるため、ランク付け方法は回帰の自然な代替手段であることが示唆されており、実際、トレーニング情報(「オブジェクトAはBよりもカメラに近い」)が示すように、ペアワイズ比較を利用したランク付けアプローチが示されています。この問題に対する有望なパフォーマンス。この論文では、ペアワイズアプローチの一般化としてのいわゆるリストワイズランキングの使用について詳しく説明します。私たちの方法は、Plackett-Luce(PL)モデル、ランキングの確率分布に基づいています。これは、最先端のニューラルネットワークアーキテクチャと単純なサンプリング戦略を組み合わせて、トレーニングの複雑さを軽減します。さらに、ランダムユーティリティモデルとしてのPLの表現を利用して、提案された予測子は、トレーニング時に提供されたランキングのみのデータから(シフト不変の)メトリック深度情報を回復する自然な方法を提供します。 「ゼロショット」設定でのいくつかのベンチマークデータセットの経験的評価は、既存のランク付けおよび回帰方法と比較したアプローチの有効性を示しています。
In many real-world applications, the relative depth of objects in an image is crucial for scene understanding. Recent approaches mainly tackle the problem of depth prediction in monocular images by treating the problem as a regression task. Yet, being interested in an order relation in the first place, ranking methods suggest themselves as a natural alternative to regression, and indeed, ranking approaches leveraging pairwise comparisons as training information ("object A is closer to the camera than B") have shown promising performance on this problem. In this paper, we elaborate on the use of so-called listwise ranking as a generalization of the pairwise approach. Our method is based on the Plackett-Luce (PL) model, a probability distribution on rankings, which we combine with a state-of-the-art neural network architecture and a simple sampling strategy to reduce training complexity. Moreover, taking advantage of the representation of PL as a random utility model, the proposed predictor offers a natural way to recover (shift-invariant) metric depth information from ranking-only data provided at training time. An empirical evaluation on several benchmark datasets in a "zero-shot" setting demonstrates the effectiveness of our approach compared to existing ranking and regression methods.