クロスデバイス連合学習は、データがデバイスに残っている間に多数のデバイスが集合的にMLモデルをトレーニングする、新しい機械学習(ML)パラダイムです。この研究分野には独自の実用的な課題があり、体系的に進歩するには、このパラダイムと互換性があるようにキュレートされた新しいデータセットが必要です。画像ドメインの既存の連合学習ベンチマークは、多くの実際のユースケースの規模と異質性を正確に捉えていません。連合学習に適したマルチラベル分類のための挑戦的な大規模な注釈付き画像データセットであるFLAIRを紹介します。 FLAIRには、51,414人のFlickrユーザーからの429,078枚の画像があり、異種ユーザーデータやロングテールラベルの配布など、連合学習で通常遭遇する複雑さの多くをキャプチャします。このデータセットのさまざまなタスクについて、さまざまな学習設定で複数のベースラインを実装します。 FLAIRは、連合学習の最先端を前進させるための挑戦的なベンチマークとして役立つと信じています。データセットへのアクセスとベンチマークのコードは、https://github.com/apple/ml-flairで入手できます。
Cross-device federated learning is an emerging machine learning (ML) paradigm where a large population of devices collectively train an ML model while the data remains on the devices. This research field has a unique set of practical challenges, and to systematically make advances, new datasets curated to be compatible with this paradigm are needed. Existing federated learning benchmarks in the image domain do not accurately capture the scale and heterogeneity of many real-world use cases. We introduce FLAIR, a challenging large-scale annotated image dataset for multi-label classification suitable for federated learning. FLAIR has 429,078 images from 51,414 Flickr users and captures many of the intricacies typically encountered in federated learning, such as heterogeneous user data and a long-tailed label distribution. We implement multiple baselines in different learning setups for different tasks on this dataset. We believe FLAIR can serve as a challenging benchmark for advancing the state-of-the art in federated learning. Dataset access and the code for the benchmark are available at https://github.com/apple/ml-flair.