Energy-Based Models for Deep Probabilistic Regression
深層学習に基づく分類は、一般に標準化されたアプローチを使用して取り組みますが、回帰にはさまざまな手法が使用されます。コンピュータビジョンで特に人気のある手法の1つは、信頼度ベースの回帰であり、入力とターゲットのペア(x、y)ごとに信頼度を予測する必要があります。このアプローチは印象的な結果を示していますが、重要なタスクに依存する設計の選択が必要であり、予測される信頼性には自然な確率論的な意味がありません。明確な確率論的解釈を備えた一般的で概念的に単純な回帰法を提案することにより、これらの問題に対処します。私たちの提案するアプローチでは、ディープニューラルネットワークを使用して、条件付きターゲット密度p(y | x)のエネルギーベースのモデルを作成し、(x、y)から非正規化密度を予測します。このp(y | x)のモデルは、モンテカルロサンプリングを使用して近似された、関連する負の対数尤度を直接最小化することによってトレーニングされます。 4つのコンピュータービジョン回帰タスクで包括的な実験を実行します。私たちのアプローチは、直接回帰だけでなく、他の確率的で信頼性に基づく方法よりも優れています。特に、私たちのモデルは、COCOデータセットでのオブジェクト検出でFaster-RCNNよりもAPが2.2%向上し、境界ボックス推定に適用すると、視覚追跡に新しい最先端の技術を設定します。信頼性に基づく方法とは対照的に、私たちのアプローチは、年齢や頭の姿勢の推定など、より一般的なタスクに直接適用できることも示されています。コードはで入手できます。
While deep learning-based classification is generally tackled using standardized approaches, a wide variety of techniques are employed for regression. In computer vision, one particularly popular such technique is that of confidence-based regression, which entails predicting a confidence value for each input-target pair (x,y). While this approach has demonstrated impressive results, it requires important task-dependent design choices, and the predicted confidences lack a natural probabilistic meaning. We address these issues by proposing a general and conceptually simple regression method with a clear probabilistic interpretation. In our proposed approach, we create an energy-based model of the conditional target density p(y|x), using a deep neural network to predict the un-normalized density from (x,y). This model of p(y|x) is trained by directly minimizing the associated negative log-likelihood, approximated using Monte Carlo sampling. We perform comprehensive experiments on four computer vision regression tasks. Our approach outperforms direct regression, as well as other probabilistic and confidence-based methods. Notably, our model achieves a 2.2% AP improvement over Faster-RCNN for object detection on the COCO dataset, and sets a new state-of-the-art on visual tracking when applied for bounding box estimation. In contrast to confidence-based methods, our approach is also shown to be directly applicable to more general tasks such as age and head-pose estimation. Code is available at
updated: Sun Jul 19 2020 12:47:37 GMT+0000 (UTC)
published: Thu Sep 26 2019 17:58:43 GMT+0000 (UTC)
