多くの現実世界のアプリケーションでは、画像内のオブジェクトの相対的な深さは、シーンを理解するために重要です。たとえば、拡張現実シーンのオクルージョンを計算する場合などです。単眼画像の深度の予測は、主に問題を回帰タスクとして扱うことにより、機械学習手法を使用して最近取り組んでいます。しかし、そもそも順序関係に関心があるため、ランク付け方法は回帰の自然な代替手段として提案されており、実際、トレーニング情報(「オブジェクトAはBよりもカメラに近い」)が示すように、ペアワイズ比較を利用したランク付けアプローチです。この問題に対する有望なパフォーマンス。この論文では、ペアワイズアプローチの一般化としてのいわゆるリストワイズランキングの使用について詳しく説明します。リストワイズランキングは、オブジェクト間のペアワイズ比較を超えて、任意の長さのランキングをトレーニング情報と見なします。私たちのアプローチは、ランキングの確率分布であるPlackett-Luceモデルに基づいています。これは、最先端のニューラルネットワークアーキテクチャとサンプリング戦略を組み合わせて、トレーニングの複雑さを軽減します。 「ゼロショット」設定でのベンチマークデータの経験的評価は、既存のランク付けおよび回帰方法と比較した提案の有効性を示しています。
In many real-world applications, the relative depth of objects in an image is crucial for scene understanding, e.g., to calculate occlusions in augmented reality scenes. Predicting depth in monocular images has recently been tackled using machine learning methods, mainly by treating the problem as a regression task. Yet, being interested in an order relation in the first place, ranking methods suggest themselves as a natural alternative to regression, and indeed, ranking approaches leveraging pairwise comparisons as training information ("object A is closer to the camera than B") have shown promising performance on this problem. In this paper, we elaborate on the use of so-called listwise ranking as a generalization of the pairwise approach. Listwise ranking goes beyond pairwise comparisons between objects and considers rankings of arbitrary length as training information. Our approach is based on the Plackett-Luce model, a probability distribution on rankings, which we combine with a state-of-the-art neural network architecture and a sampling strategy to reduce training complexity. An empirical evaluation on benchmark data in a "zero-shot" setting demonstrates the effectiveness of our proposal compared to existing ranking and regression methods.