arXiv reaDer
NCL++: ロングテール視覚認識のためのネストされた協調学習
NCL++: Nested Collaborative Learning for Long-Tailed Visual Recognition
ロングテール視覚認識は、近年ますます注目を集めています。ロングテール学習ではデータの分布が非常に不均衡であるため、学習プロセスには大きな不確実性が生じます。たとえば、同じトレーニング設定にもかかわらず、同じ画像に対するさまざまな専門家の予測は著しく異なります。不確実性を軽減するために、我々は協調学習によってロングテール学習問題に取り組むNested Collaborative Learning (NCL++)を提案します。具体的には、協調学習は、専門家間協調学習(InterCL)と専門家内協調学習(IntraCL)の2つから構成されます。 In-terCL は、複数の専門家が協力的かつ同時に学習し、異なる専門家間で知識を伝達することを目的としています。 IntraCL は InterCL に似ていますが、単一の専門家内で同じ画像の複数の拡張コピーに対して共同学習を実行することを目的としています。ロングテール学習での協調学習を実現するために、バランスの取れたオンライン蒸留が提案され、さまざまな専門家と拡張コピー間で一貫した予測を強制することで、学習の不確実性が軽減されます。さらに、混乱を招くカテゴリに対するきめ細かな識別能力を向上させるために、予測スコアの高いネガティブカテゴリをハードカテゴリとして選択するハードカテゴリマイニング(HCM)をさらに提案します。そして、すべてのカテゴリを全体的な観点から学習するのではなく、一部のハードカテゴリを部分的な観点から学習するという入れ子の形で協調学習を定式化します。広範な実験により、単一モデルを使用するかアンサンブルを使用するかにかかわらず、最先端技術を上回るパフォーマンスを示すこの方法の優位性が実証されました。コードは公開されます。
Long-tailed visual recognition has received increasing attention in recent years. Due to the extremely imbalanced data distribution in long-tailed learning, the learning process shows great uncertainties. For example, the predictions of different experts on the same image vary remarkably despite the same training settings. To alleviate the uncertainty, we propose a Nested Collaborative Learning (NCL++) which tackles the long-tailed learning problem by a collaborative learning. To be specific, the collaborative learning consists of two folds, namely inter-expert collaborative learning (InterCL) and intra-expert collaborative learning (IntraCL). In-terCL learns multiple experts collaboratively and concurrently, aiming to transfer the knowledge among different experts. IntraCL is similar to InterCL, but it aims to conduct the collaborative learning on multiple augmented copies of the same image within the single expert. To achieve the collaborative learning in long-tailed learning, the balanced online distillation is proposed to force the consistent predictions among different experts and augmented copies, which reduces the learning uncertainties. Moreover, in order to improve the meticulous distinguishing ability on the confusing categories, we further propose a Hard Category Mining (HCM), which selects the negative categories with high predicted scores as the hard categories. Then, the collaborative learning is formulated in a nested way, in which the learning is conducted on not just all categories from a full perspective but some hard categories from a partial perspective. Extensive experiments manifest the superiority of our method with outperforming the state-of-the-art whether with using a single model or an ensemble. The code will be publicly released.
updated: Wed Jul 17 2024 09:25:29 GMT+0000 (UTC)
published: Thu Jun 29 2023 06:10:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト