arXiv reaDer
画像分類のための効率的な適応型アンサンブル
Efficient Adaptive Ensembling for Image Classification
最近のコンピューター ビジョンの傾向は、散発的なケースを除いて、大幅な複雑さの増加に比べてわずかな改善を達成する傾向にあります。この傾向を逆転させるために、複雑さを増すことなく画像分類パフォーマンスを向上させる新しい方法を提案します。この目的を達成するために、私たちは、より複雑な性質とトレーニング時間のために適切に使用されないことが多い強力なアプローチであるアンサンブルを再考し、特定の設計の選択を通じて実行可能にしました。まず、2 つの EfficientNet-b0 エンドツーエンド モデル (画像分類において全体的な精度と複雑さのトレードオフが最も優れているアーキテクチャとして知られています) をデータの素なサブセット (つまりバギング) でトレーニングしました。次に、トレーニング可能な組み合わせ層を微調整して、効率的な適応アンサンブルを作成しました。このようにして、パラメーターの数 (5 ~ 60 倍) と浮動小数点の両方の点で複雑さを抑制しながら、精度で最新技術を平均 0.5% 上回るパフォーマンスを達成することができました。いくつかの主要なベンチマーク データセットで 1 秒あたりの操作数 (FLOPS) が 10 ~ 100 倍向上しました。
In recent times, with the exception of sporadic cases, the trend in Computer Vision is to achieve minor improvements compared to considerable increases in complexity. To reverse this trend, we propose a novel method to boost image classification performances without increasing complexity. To this end, we revisited ensembling, a powerful approach, often not used properly due to its more complex nature and the training time, so as to make it feasible through a specific design choice. First, we trained two EfficientNet-b0 end-to-end models (known to be the architecture with the best overall accuracy/complexity trade-off for image classification) on disjoint subsets of data (i.e. bagging). Then, we made an efficient adaptive ensemble by performing fine-tuning of a trainable combination layer. In this way, we were able to outperform the state-of-the-art by an average of 0.5% on the accuracy, with restrained complexity both in terms of the number of parameters (by 5-60 times), and the FLoating point Operations Per Second (FLOPS) by 10-100 times on several major benchmark datasets.
updated: Wed Aug 30 2023 06:36:08 GMT+0000 (UTC)
published: Wed Jun 15 2022 08:55:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト