最先端のディープ ハッシュ検索モデルのトレーニングにかかる費用は、より洗練されたモデルと大規模なデータセットの採用により増加しています。データセット蒸留 (DD) またはデータセット圧縮 (DC) は、元の情報を保持するより小さな合成データセットを生成することに重点を置いています。それにもかかわらず、既存の DD 手法は、精度と効率の間のトレードオフを維持するという課題に直面しています。また、最先端のデータセット蒸留手法は、すべてのディープ ハッシュ取得手法に拡張することはできません。この論文では、合成セットと実際のセットの間の特徴の埋め込みを一致させることで、これらの制限に対処する効率的な圧縮フレームワークを提案します。さらに、初期段階の拡張モデルやマルチフォーメーションの戦略を組み込むことで、機能の多様性を強化します。広範な実験により、最先端のベースライン手法と比較して、パフォーマンスと効率の両方の点で当社のアプローチが顕著に優れているという説得力のある証拠が得られました。
The expenses involved in training state-of-the-art deep hashing retrieval models have witnessed an increase due to the adoption of more sophisticated models and large-scale datasets. Dataset Distillation (DD) or Dataset Condensation(DC) focuses on generating smaller synthetic dataset that retains the original information. Nevertheless, existing DD methods face challenges in maintaining a trade-off between accuracy and efficiency. And the state-of-the-art dataset distillation methods can not expand to all deep hashing retrieval methods. In this paper, we propose an efficient condensation framework that addresses these limitations by matching the feature-embedding between synthetic set and real set. Furthermore, we enhance the diversity of features by incorporating the strategies of early-stage augmented models and multi-formation. Extensive experiments provide compelling evidence of the remarkable superiority of our approach, both in terms of performance and efficiency, compared to state-of-the-art baseline methods.