arXiv reaDer
多重忠実度 HPC システムの評価に対するマルチレベル、マルチスケールのビジュアル分析アプローチ
A Multi-Level, Multi-Scale Visual Analytics Approach to Assessment of Multifidelity HPC Systems
ハードウェア システムのイベントと動作を監視および解釈する機能は、特にスーパーコンピューティング施設において、これらのシステムの堅牢性と信頼性を向上させるために重要です。これらのシステムの複雑さと規模の増大により、複数の忠実度レベルとさまざまな時間解像度で収集される監視データの増加が必要になります。この研究では、このような膨大なデータ、主にスーパーコンピュータ システムの異なるサブシステムやコンポーネントから収集されたハードウェア ログ、ジョブ ログ、環境ログなどの意味を理解するのに役立つ総合的な分析システムを構築することを目指しています。このエンドツーエンドのログ分析システムとビジュアル分析サポートを組み合わせることで、ユーザーはさまざまな時間的および空間的解像度でスーパーコンピューターの使用状況とエラー パターンを収集し、迅速に抽出することができます。私たちは、高次元データを相関した時空間変動パターンまたはモードとして表現する技術である多重解像度動的モード分解 (mrDMD) を使用して、指定された周波数で分離された変動パターンを抽出します。 mrDMD アルゴリズムの改良により、大規模な環境ログ データセット内の有用な情報が迅速に明らかになり、ビジュアル分析システムを使用して、処理されたハードウェアおよびジョブ ログ データセットに関連付けられます。さらに、当社のシステムは、ユーザー、プロジェクト、サブコンポーネントのレベルでフィルタリングされた使用状況とエラーのパターンを識別できます。 Cray XC40 スーパーコンピューターを使用した 2 つの使用シナリオで、アプローチの有効性を例示します。
The ability to monitor and interpret of hardware system events and behaviors are crucial to improving the robustness and reliability of these systems, especially in a supercomputing facility. The growing complexity and scale of these systems demand an increase in monitoring data collected at multiple fidelity levels and varying temporal resolutions. In this work, we aim to build a holistic analytical system that helps make sense of such massive data, mainly the hardware logs, job logs, and environment logs collected from disparate subsystems and components of a supercomputer system. This end-to-end log analysis system, coupled with visual analytics support, allows users to glean and promptly extract supercomputer usage and error patterns at varying temporal and spatial resolutions. We use multiresolution dynamic mode decomposition (mrDMD), a technique that depicts high-dimensional data as correlated spatial-temporal variations patterns or modes, to extract variation patterns isolated at specified frequencies. Our improvements to the mrDMD algorithm help promptly reveal useful information in the massive environment log dataset, which is then associated with the processed hardware and job log datasets using our visual analytics system. Furthermore, our system can identify the usage and error patterns filtered at user, project, and subcomponent levels. We exemplify the effectiveness of our approach with two use scenarios with the Cray XC40 supercomputer.
updated: Thu Jun 15 2023 19:23:50 GMT+0000 (UTC)
published: Thu Jun 15 2023 19:23:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト