arXiv reaDer
少ないほど多い:バランスの制約がある有益で多様なサブセットの選択
Less is more: Selecting informative and diverse subsets with balancing constraints
ディープラーニングは、視覚と自然言語処理において並外れた結果をもたらしましたが、この成果にはコストがかかります。ほとんどのモデルは、計算と人間によるラベル付けの両方の観点から、トレーニング中に膨大なリソースを必要とします。元のデータセットでトレーニングされたものと同様のパフォーマンスを持つ深層学習モデルにつながる、有益で多様なデータのサブセットを特定できることを示します。以前の方法は、サブセットを選択するための劣モジュラ目的関数の多様性と不確実性を利用していました。これらの対策に加えて、予測されたクラスラベルと決定境界の制約のバランスをとることが有益であることを示します。ベクトル空間の線形独立性を一般化する代数的構造であるマトロイドを使用して、これらの制約の新しい定式化を提案し、一定の近似が保証された効率的な欲張りアルゴリズムを提示します。 CIFAR-10、CIFAR-100、ImageNetなどの標準分類データセット、およびCIFAR-100-LTなどのロングテールデータセットで、競合するベースラインを上回っています。
Deep learning has yielded extraordinary results in vision and natural language processing, but this achievement comes at a cost. Most models require enormous resources during training, both in terms of computation and in human labeling effort. We show that we can identify informative and diverse subsets of data that lead to deep learning models with similar performance as the ones trained with the original dataset. Prior methods have exploited diversity and uncertainty in submodular objective functions for choosing subsets. In addition to these measures, we show that balancing constraints on predicted class labels and decision boundaries are beneficial. We propose a novel formulation of these constraints using matroids, an algebraic structure that generalizes linear independence in vector spaces, and present an efficient greedy algorithm with constant approximation guarantees. We outperform competing baselines on standard classification datasets such as CIFAR-10, CIFAR-100, ImageNet, as well as long-tailed datasets such as CIFAR-100-LT.
updated: Fri Oct 08 2021 16:59:33 GMT+0000 (UTC)
published: Mon Apr 26 2021 19:22:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト