arXiv reaDer
データの蒸留: 調査
Data Distillation: A Survey
ディープ ラーニングの人気により、膨大な数の大規模で多種多様なデータセットがキュレーションされています。個々のタスクで人間に近いパフォーマンスが得られるにもかかわらず、大規模なデータセットでパラメーターを大量に消費するモデルをトレーニングすると、次のような多面的な問題が生じます。(a) モデルのトレーニング時間が長い。 (b) 研究の繰り返しが遅い。 (c) 環境の持続可能性が低い。別の方法として、データ蒸留アプローチは、簡潔なデータ サマリーを合成することを目的としています。これは、モデル トレーニング、推論、アーキテクチャ検索などのシナリオで、元のデータセットの効果的なドロップイン置換として機能します。この調査では、次の正式なフレームワークを提示します。既存のアプローチの詳細な分類法を提供するとともに、データの蒸留。さらに、現在の課題と将来の研究の方向性も特定しながら、さまざまなデータ モダリティ、つまり画像、グラフ、ユーザーとアイテムの相互作用 (レコメンダー システム) のデータ蒸留アプローチについて説明します。
The popularity of deep learning has led to the curation of a vast number of massive and multifarious datasets. Despite having close-to-human performance on individual tasks, training parameter-hungry models on large datasets poses multi-faceted problems such as (a) high model-training time; (b) slow research iteration; and (c) poor eco-sustainability. As an alternative, data distillation approaches aim to synthesize terse data summaries, which can serve as effective drop-in replacements of the original dataset for scenarios like model training, inference, architecture search, etc. In this survey, we present a formal framework for data distillation, along with providing a detailed taxonomy of existing approaches. Additionally, we cover data distillation approaches for different data modalities, namely images, graphs, and user-item interactions (recommender systems), while also identifying current challenges and future research directions.
updated: Wed Jan 11 2023 02:25:10 GMT+0000 (UTC)
published: Wed Jan 11 2023 02:25:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト