コンピューティングとデータ リソースに対する需要の高まりとともにディープ ラーニングが開花するにつれて、モデル トレーニングを強力なクラウド サーバーにアウトソーシングすることは、低電力で費用対効果の高いエンド デバイスでのトレーニングに代わる魅力的な選択肢になります。従来のアウトソーシングでは、デバイス データをクラウド サーバーにアップロードする必要があります。これは、収集されたデータの機密性が高く、通信帯域幅が限られているため、多くの現実世界のアプリケーションでは実行できない場合があります。これらの課題に取り組むために、広く利用可能なオープンソース データを活用することを提案します。これは、公開されたさまざまなソース (インターネット画像など) から収集された大規模なデータセットです。クライアント データの代わりに、クラウド トレーニング用のオープンソース データから近位プロキシ データセットを構築するための効率的な共同オープンソース サンプリング (ECOS) と呼ばれる新しい戦略を開発します。 ECOS は、クラウド サーバー上のオープンソース データをプローブし、通信効率と計算効率の高いサンプリング プロセスを介してクライアント データの分布を検出します。サンプリング プロセスは、いくつかの圧縮されたパブリック フィーチャとクライアント スカラー応答のみを通信します。広範な実証研究は、提案された ECOS が、さまざまな学習シナリオに適用されると、自動化されたクライアントのラベル付け、モデルの圧縮、およびラベルのアウトソーシングの品質を向上させることを示しています。
As deep learning blooms with growing demand for computation and data resources, outsourcing model training to a powerful cloud server becomes an attractive alternative to training at a low-power and cost-effective end device. Traditional outsourcing requires uploading device data to the cloud server, which can be infeasible in many real-world applications due to the often sensitive nature of the collected data and the limited communication bandwidth. To tackle these challenges, we propose to leverage widely available open-source data, which is a massive dataset collected from public and heterogeneous sources (e.g., Internet images). We develop a novel strategy called Efficient Collaborative Open-source Sampling (ECOS) to construct a proximal proxy dataset from open-source data for cloud training, in lieu of client data. ECOS probes open-source data on the cloud server to sense the distribution of client data via a communication- and computation-efficient sampling process, which only communicates a few compressed public features and client scalar responses. Extensive empirical studies show that the proposed ECOS improves the quality of automated client labeling, model compression, and label outsourcing when applied in various learning scenarios.