現代の深層学習談話では、2つのことが議論の余地のないように思われます。1.ソフトマックスの活性化後のカテゴリー間のクロスエントロピーの損失は、分類の選択方法です。 2.小さなデータセットでCNN分類器を最初からトレーニングしてもうまくいきません。これとは対照的に、クラスごとのサンプル数が少ないデータセットでは、コサイン損失関数がクロスエントロピーよりも大幅に優れたパフォーマンスを提供することを示します。たとえば、事前トレーニングなしでCUB-200-2011データセットで達成される精度は、クロスエントロピー損失の場合よりも30%高くなります。他の一般的なデータセットでのさらなる実験により、我々の発見を確認します。さらに、クラス階層の形式で事前知識を統合することは、コサイン損失を使用して簡単であり、分類パフォーマンスがさらに向上することを示します。
Two things seem to be indisputable in the contemporary deep learning discourse: 1. The categorical cross-entropy loss after softmax activation is the method of choice for classification. 2. Training a CNN classifier from scratch on small datasets does not work well. In contrast to this, we show that the cosine loss function provides significantly better performance than cross-entropy on datasets with only a handful of samples per class. For example, the accuracy achieved on the CUB-200-2011 dataset without pre-training is by 30% higher than with the cross-entropy loss. Further experiments on other popular datasets confirm our findings. Moreover, we demonstrate that integrating prior knowledge in the form of class hierarchies is straightforward with the cosine loss and improves classification performance further.