フェデレーテッド ラーニング (FL) は、機密データを保持する複数のクライアントが、データを一元化することなく機械学習モデルを共同でトレーニングできるようにする新しいアプローチです。クロスサイロ FL 設定は、少数 (2 ~ 50) の信頼できるクライアントの場合に対応し、それぞれが中規模から大規模のデータセットを保持しており、通常、医療、金融、または産業などのアプリケーションで見られます。以前の研究ではクロスデバイス FL の代表的なデータセットが提案されていましたが、現実的なヘルスケア クロスサイロ FL データセットはほとんど存在しないため、この重要なアプリケーションでのアルゴリズム研究が遅れています。この作業では、クロスサイロ FL の理論と実践の間のギャップを埋めるために、ヘルスケアに焦点を当てた新しいクロスサイロ データセット スイートである FLamby (Federated Learning AMple Benchmark of Your cross-silo strategy) を提案します。 FLamby には、複数のタスク、モダリティ、データ ボリュームをカバーする自然な分割を備えた 7 つのヘルスケア データセットが含まれており、それぞれにベースライン トレーニング コードが付属しています。例として、すべてのデータセットで標準の FL アルゴリズムをさらにベンチマークします。当社の柔軟なモジュラー スイートにより、研究者はデータセットを簡単にダウンロードし、結果を再現し、さまざまなコンポーネントを研究に再利用できます。 FLamby は ~www.github.com/owkin/flamby で入手できます。
Federated Learning (FL) is a novel approach enabling several clients holding sensitive data to collaboratively train machine learning models, without centralizing data. The cross-silo FL setting corresponds to the case of few (2--50) reliable clients, each holding medium to large datasets, and is typically found in applications such as healthcare, finance, or industry. While previous works have proposed representative datasets for cross-device FL, few realistic healthcare cross-silo FL datasets exist, thereby slowing algorithmic research in this critical application. In this work, we propose a novel cross-silo dataset suite focused on healthcare, FLamby (Federated Learning AMple Benchmark of Your cross-silo strategies), to bridge the gap between theory and practice of cross-silo FL. FLamby encompasses 7 healthcare datasets with natural splits, covering multiple tasks, modalities, and data volumes, each accompanied with baseline training code. As an illustration, we additionally benchmark standard FL algorithms on all datasets. Our flexible and modular suite allows researchers to easily download datasets, reproduce results and re-use the different components for their research. FLamby is available at~www.github.com/owkin/flamby.