サンプルに関する予測の難易度に基づいてクロスエントロピーを動的に再スケーリングする新しい損失関数を提案します。画像分類タスクのディープニューラルネットワークアーキテクチャは、視覚的に類似したオブジェクトを明確にするのに苦労しています。同様に、人間のポーズの推定では、対称的な身体部分は、ネットワークを無差別なスコアの割り当てと混同することがよくあります。これは、出力の予測によるもので、不確実性の尺度を考慮せずに、最も信頼性の高いラベルのみが選択されます。この作業では、予測の難易度を、ポジティブラベルとネガティブラベル間の信頼スコアのギャップから生じる相対的な特性として定義します。より正確には、提案された損失関数はネットワークにペナルティを与え、誤った予測のスコアが重要になるのを回避します。損失関数の有効性を示すために、画像分類と人間の姿勢推定という2つの異なるドメインで評価します。ベースラインの方法と比較してより高い精度を達成することにより、両方のアプリケーションで改善が見られます。
We propose a novel loss function that dynamically rescales the cross entropy based on prediction difficulty regarding a sample. Deep neural network architectures in image classification tasks struggle to disambiguate visually similar objects. Likewise, in human pose estimation symmetric body parts often confuse the network with assigning indiscriminative scores to them. This is due to the output prediction, in which only the highest confidence label is selected without taking into consideration a measure of uncertainty. In this work, we define the prediction difficulty as a relative property coming from the confidence score gap between positive and negative labels. More precisely, the proposed loss function penalizes the network to avoid the score of a false prediction being significant. To demonstrate the efficacy of our loss function, we evaluate it on two different domains: image classification and human pose estimation. We find improvements in both applications by achieving higher accuracy compared to the baseline methods.