arXiv reaDer
合成トレーニングデータ生成のためのGANのアンサンブル
Ensembles of GANs for synthetic training data generation
不十分なトレーニングデータは、ほとんどのディープラーニングプラクティスの主要なボトルネックです。特に、データの収集が困難で、倫理とプライバシーのために公開されているデータセットが不足している医用画像ではそうです。この作業では、生成的敵対的ネットワーク(GAN)によって作成された合成画像を、トレーニングデータの唯一のソースとして使用することを調査します。このアプリケーションでは、生成されたデータの多様性を改善するために、つまりデータ分布を十分にカバーするために、複数のGANを利用することが非常に重要であることを示します。 1つのGANで一見多様な画像コンテンツを生成できますが、ほとんどの場合、このデータのトレーニングは深刻な過剰適合につながります。アンサンブルされたGANが合成2Dデータと一般的な画像データセット(SVHNとCIFAR-10)に与える影響をテストし、DCGANと徐々に成長するGANの両方を使用します。特定のユースケースとして、匿名化されたトレーニングデータを提供するためのデジタルパソロジーパッチの合成に焦点を当てています。
Insufficient training data is a major bottleneck for most deep learning practices, not least in medical imaging where data is difficult to collect and publicly available datasets are scarce due to ethics and privacy. This work investigates the use of synthetic images, created by generative adversarial networks (GANs), as the only source of training data. We demonstrate that for this application, it is of great importance to make use of multiple GANs to improve the diversity of the generated data, i.e. to sufficiently cover the data distribution. While a single GAN can generate seemingly diverse image content, training on this data in most cases lead to severe over-fitting. We test the impact of ensembled GANs on synthetic 2D data as well as common image datasets (SVHN and CIFAR-10), and using both DCGANs and progressively growing GANs. As a specific use case, we focus on synthesizing digital pathology patches to provide anonymized training data.
updated: Fri Apr 23 2021 19:38:48 GMT+0000 (UTC)
published: Fri Apr 23 2021 19:38:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト