arXiv reaDer
ラベル分配を考慮したマージン損失による不均衡なデータセットの学習
Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss
  ディープラーニングアルゴリズムは、トレーニングデータセットが重いクラスの不均衡に苦しんでいる場合にうまく機能しない可能性がありますが、テスト基準では、頻度の低いクラスで適切な一般化が必要です。このようなシナリオでパフォーマンスを改善するために、2つの新しい方法を設計します。最初に、マージンに基づく一般化限界を最小化することにより動機付けられた、理論的に原理に基づいたラベル配布認識マージン(LDAM)損失を提案します。この損失は、トレーニング中に標準のクロスエントロピー目標を置き換え、再重み付けや再サンプリングなどのクラスの不均衡を伴うトレーニングの以前の戦略に適用できます。次に、初期段階の後まで再重み付けを延期するシンプルで効果的なトレーニングスケジュールを提案し、モデルが初期表現を学習できるようにし、再重み付けまたは再サンプリングに関連する複雑さを回避します。現実世界の不均衡なデータセットiNaturalist 2018を含むいくつかのベンチマークビジョンタスクでメソッドをテストします。これらのメソッドのいずれかだけで、既存のテクニックを既に改善でき、それらの組み合わせによりパフォーマンスがさらに向上することがわかります。
Deep learning algorithms can fare poorly when the training dataset suffers from heavy class-imbalance but the testing criterion requires good generalization on less frequent classes. We design two novel methods to improve performance in such scenarios. First, we propose a theoretically-principled label-distribution-aware margin (LDAM) loss motivated by minimizing a margin-based generalization bound. This loss replaces the standard cross-entropy objective during training and can be applied with prior strategies for training with class-imbalance such as re-weighting or re-sampling. Second, we propose a simple, yet effective, training schedule that defers re-weighting until after the initial stage, allowing the model to learn an initial representation while avoiding some of the complications associated with re-weighting or re-sampling. We test our methods on several benchmark vision tasks including the real-world imbalanced dataset iNaturalist 2018. Our experiments show that either of these methods alone can already improve over existing techniques and their combination achieves even better performance gains.
updated: Sun Oct 27 2019 23:31:52 GMT+0000 (UTC)
published: Tue Jun 18 2019 07:21:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト