arXiv reaDer
Deep Lake: ディープ ラーニングのレイクハウス
Deep Lake: a Lakehouse for Deep Learning
従来のデータ レイクは、タイム トラベルの有効化、SQL クエリの実行、ACID トランザクションによるデータの取り込み、クラウド ストレージでのペタバイト規模のデータセットの視覚化によって、分析ワークロードに重要なデータ インフラストラクチャを提供します。これにより、組織はデータ サイロを解体し、データ駆動型の意思決定を解き放ち、運用効率を向上させ、コストを削減できます。ただし、ディープ ラーニングの使用が増えるにつれて、従来のデータ レイクは、自然言語処理 (NLP)、音声処理、コンピューター ビジョン、表形式以外のデータセットを含むアプリケーションなどのアプリケーション向けに適切に設計されていません。このホワイト ペーパーでは、Activeloop で開発されたディープ ラーニング アプリケーション用のオープンソース レイクハウスである Deep Lake について説明します。 Deep Lake は、1 つの重要な違いを除いて、通常のデータ レイクの利点を維持します。それは、画像、動画、注釈、および表形式のデータなどの複雑なデータをテンソルの形式で格納し、ネットワーク経由でデータを (a ) Tensor クエリ言語、(b) ブラウザー内視覚化エンジン、または (c) GPU 使用率を犠牲にすることなくディープ ラーニング フレームワーク。 Deep Lake に保存されたデータセットは、PyTorch、TensorFlow、JAX からアクセスでき、多数の MLOps ツールと統合できます。
Traditional data lakes provide critical data infrastructure for analytical workloads by enabling time travel, running SQL queries, ingesting data with ACID transactions, and visualizing petabyte-scale datasets on cloud storage. They allow organizations to break down data silos, unlock data-driven decision-making, improve operational efficiency, and reduce costs. However, as deep learning usage increases, traditional data lakes are not well-designed for applications such as natural language processing (NLP), audio processing, computer vision, and applications involving non-tabular datasets. This paper presents Deep Lake, an open-source lakehouse for deep learning applications developed at Activeloop. Deep Lake maintains the benefits of a vanilla data lake with one key difference: it stores complex data, such as images, videos, annotations, as well as tabular data, in the form of tensors and rapidly streams the data over the network to (a) Tensor Query Language, (b) in-browser visualization engine, or (c) deep learning frameworks without sacrificing GPU utilization. Datasets stored in Deep Lake can be accessed from PyTorch, TensorFlow, JAX, and integrate with numerous MLOps tools.
updated: Wed Dec 14 2022 00:01:30 GMT+0000 (UTC)
published: Thu Sep 22 2022 05:04:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト