arXiv reaDer
アダプティブラベルスムージング
Adaptive Label Smoothing
このホワイトペーパーでは、畳み込みニューラルネットワーク(CNN)のキャリブレーションパフォーマンスを向上させるためのオブジェクト性測定の使用について説明します。 CNNは非常に優れた分類器であり、一般にオブジェクトを適切にローカライズすることが証明されています。ただし、分類CNNのトレーニングに通常使用される損失関数は、オブジェクトをローカライズできないことを罰するものではなく、特定の画像内のオブジェクトの相対的なサイズを考慮に入れるものでもありません。 ImageNet-1Kでのトレーニング中、ほとんどすべてのアプローチで画像にランダムな切り抜きが使用され、この変換によってCNNに背景のみのサンプルが提供されることがあります。これにより、分類子はコンテキストに依存します。コンテキスト依存は、セーフティクリティカルなアプリケーションにとって有害です。トレーニング中のオブジェクト性とラベル平滑化のアイデアを組み合わせた分類への新しいアプローチを提示します。以前の方法とは異なり、画像内の相対的なオブジェクトサイズに基づいて適応する平滑化係数を計算します。これにより、私たちのアプローチは、正しい予測を行うためにコンテキストに依存するのではなく、分類されているオブジェクトのサイズに基づいた信頼を生成します。 ImageNetを使用して広範な結果を提示し、適応ラベル平滑化を使用してトレーニングされたCNNが予測に自信過剰になる可能性がはるかに低いことを示します。クラスアクティベーションマップを使用した定性的な結果と、分類および転送学習タスクを使用した定量的な結果を示します。私たちのアプローチは、ベースラインと比較した場合、コンテキストのみの画像で予測する場合、信頼性を1桁低下させることができます。転移学習を使用すると、ハードラベルアプローチと比較して、MSCOCOで2.1mAPが得られます。
This paper concerns the use of objectness measures to improve the calibration performance of Convolutional Neural Networks (CNNs). CNNs have proven to be very good classifiers and generally localize objects well; however, the loss functions typically used to train classification CNNs do not penalize inability to localize an object, nor do they take into account an object's relative size in the given image. During training on ImageNet-1K almost all approaches use random crops on the images and this transformation sometimes provides the CNN with background only samples. This causes the classifiers to depend on context. Context dependence is harmful for safety-critical applications. We present a novel approach to classification that combines the ideas of objectness and label smoothing during training. Unlike previous methods, we compute a smoothing factor that is adaptive based on relative object size within an image. This causes our approach to produce confidences that are grounded in the size of the object being classified instead of relying on context to make the correct predictions. We present extensive results using ImageNet to demonstrate that CNNs trained using adaptive label smoothing are much less likely to be overconfident in their predictions. We show qualitative results using class activation maps and quantitative results using classification and transfer learning tasks. Our approach is able to produce an order of magnitude reduction in confidence when predicting on context only images when compared to baselines. Using transfer learning, we gain 2.1mAP on MS COCO compared to the hard label approach.
updated: Mon Dec 07 2020 23:19:08 GMT+0000 (UTC)
published: Mon Sep 14 2020 13:37:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト