このホワイトペーパーでは、ディープラーニングのコンテキストで、離散および定期的なクラスラベル(ポーズ/向きの推定など)を使用してタスクを対象としています。一般的に使用される相互エントロピーまたは回帰損失は、ラベルの周期的な性質とクラスの類似性を無視するか、ラベルが連続値であると仮定するため、この問題にうまく適合しません。事前定義(つまり、円の弧の長さを使用)またはグラウンドメトリックを適応的に学習することにより、Wassersteinトレーニングフレームワークにクラス間相関を組み込むことを提案します。地上メトリックを線形、凸または凹の増加関数w.r.tとして拡張します。最適化の観点からのアーク長。また、ラップされた単峰性均一混合分布を使用して、インライアノイズとアウトライアノイズをモデル化する保守的なターゲットラベルを構築することを提案します。ワンホット設定とは異なり、保守的なラベルは、ワッサーシュタイン距離の計算をより困難にします。ワンホットまたは保守的なターゲットラベルのいずれかを持つポーズデータのWasserstein距離の実用的な閉じた形式のソリューションを体系的に終了します。頭部、身体、車両、3Dオブジェクトポーズベンチマークで徹底的なアブレーションの研究を行い、この方法を評価します。 Wassersteinの損失は、特に地上メトリック、保守的なラベル、および閉形式のソリューションに凸マッピング関数を使用して、現在の方法よりも優れたパフォーマンスを得ています。
This paper targets the task with discrete and periodic class labels (e.g., pose/orientation estimation) in the context of deep learning. The commonly used cross-entropy or regression loss is not well matched to this problem as they ignore the periodic nature of the labels and the class similarity, or assume labels are continuous value. We propose to incorporate inter-class correlations in a Wasserstein training framework by pre-defining (i.e., using arc length of a circle) or adaptively learning the ground metric. We extend the ground metric as a linear, convex or concave increasing function w.r.t. arc length from an optimization perspective. We also propose to construct the conservative target labels which model the inlier and outlier noises using a wrapped unimodal-uniform mixture distribution. Unlike the one-hot setting, the conservative label makes the computation of Wasserstein distance more challenging. We systematically conclude the practical closed-form solution of Wasserstein distance for pose data with either one-hot or conservative target label. We evaluate our method on head, body, vehicle and 3D object pose benchmarks with exhaustive ablation studies. The Wasserstein loss obtaining superior performance over the current methods, especially using convex mapping function for ground metric, conservative label, and closed-form solution.