暗記の問題は、コンピュータビジョンの分野でよく知られています。 Liu etal。ラベルノイズが存在する場合にCIFARデータセットの精度を向上させる早期学習正則化と呼ばれる手法を提案します。このプロジェクトは、彼らの実験を複製し、固有のノイズを伴う実際のデータセットのパフォーマンスを調査します。結果は、それらの実験結果が一貫していることを示しています。また、SGDに加えてシャープネス対応の最小化についても調査し、さらに14.6パーセントポイントの改善が見られました。今後の作業には、600万枚の画像すべてを使用し、画像の一部を手動でクリーンアップして、転移学習モデルを微調整することが含まれます。最後になりましたが、テスト用のクリーンなデータにアクセスできると、精度の測定も向上します。
The memorization problem is well-known in the field of computer vision. Liu et al. propose a technique called Early-Learning Regularization, which improves accuracy on the CIFAR datasets when label noise is present. This project replicates their experiments and investigates the performance on a real-world dataset with intrinsic noise. Results show that their experimental results are consistent. We also explore Sharpness-Aware Minimization in addition to SGD and observed a further 14.6 percentage points improvement. Future work includes using all 6 million images and manually clean a fraction of the images to fine-tune a transfer learning model. Last but not the least, having access to clean data for testing would also improve the measurement of accuracy.