材料データマイニングの最近の進歩は、大規模なデータセットでトレーニングされた大容量モデルによって推進されています。しかし、実験データ(実際のデータ)の収集には、人間の努力と専門知識が必要なため、非常に費用がかかります。ここでは、小規模または不十分なデータの問題に対処するための新しい転送学習戦略を開発します。この戦略は、実際のデータとシミュレートされたデータの融合、およびデータマイニング手順でのトレーニングデータの増強を実現します。画像分割の特定のタスクに対して、この戦略は、シミュレートされた画像の物理的メカニズムと実際の画像の「画像スタイル」を融合することにより、合成画像を生成できます。結果は、取得した合成画像でトレーニングされたモデルと実画像の35%が、すべての実画像でトレーニングされたモデルよりも優れていることを示しています。合成データの生成に必要な時間はほとんど無視できるため、この戦略により、実際のデータ準備の時間コストを約65%削減できます。
Recent progress in material data mining has been driven by high-capacity models trained on large datasets. However, collecting experimental data (real data) has been extremely costly since the amount of human effort and expertise required. Here, we develop a novel transfer learning strategy to address small or insufficient data problem. This strategy realizes the fusion of real and simulated data, and the augmentation of training data in data mining procedure. For a specific task of image segmentation, this strategy can generate synthetic images by fusing physical mechanism of simulated images and "image style" of real images. The result shows that the model trained with the acquired synthetic images and 35% of the real images outperforms the model trained on all real images. As the time required to generate synthetic data is almost negligible, this strategy is able to reduce the time cost of real data preparation by roughly 65%.