AIBench Scenario: Scenario-distilling AI Benchmarking
インターネットサービスのような最新の実際のアプリケーションシナリオは、AIモジュールと非AIモジュールの多様性で構成されており、コードサイズが大きく、実行パスが長く複雑であるため、深刻なベンチマークや評価の課題が発生します。 AIコンポーネントまたはマイクロベンチマークを単独で使用すると、エラーが発生しやすい結論につながる可能性があります。このホワイトペーパーでは、上記の課題に取り組むための方法論を紹介します。実世界のアプリケーションシナリオを有向非巡回グラフベースのモデルとして形式化し、シナリオベンチマークと呼ばれる重要なAIタスクと非AIタスクの順列に抽出するためのルールを提案します。 17の業界パートナーと協力して、9つの典型的なシナリオベンチマークを抽出します。拡張可能で、構成可能で、柔軟なベンチマークフレームワークを設計および実装します。 2つの実際のアプリケーションシナリオのプロキシとして、フレームワークに基づいて2つのインターネットサービスAIシナリオベンチマークを実装します。シナリオ、コンポーネント、およびマイクロベンチマークは、評価に不可欠な3つの部分と見なされます。私たちの評価は、コンポーネントまたはマイクロAIベンチマークのみを使用することに対する私たちの方法論の利点を示しています。仕様、ソースコード、テストベッド、および結果は、から公開されています。
Modern real-world application scenarios like Internet services consist of a diversity of AI and non-AI modules with huge code sizes and long and complicated execution paths, which raises serious benchmarking or evaluating challenges. Using AI components or micro benchmarks alone can lead to error-prone conclusions. This paper presents a methodology to attack the above challenge. We formalize a real-world application scenario as a Directed Acyclic Graph-based model and propose the rules to distill it into a permutation of essential AI and non-AI tasks, which we call a scenario benchmark. Together with seventeen industry partners, we extract nine typical scenario benchmarks. We design and implement an extensible, configurable, and flexible benchmark framework. We implement two Internet service AI scenario benchmarks based on the framework as proxies to two real-world application scenarios. We consider scenario, component, and micro benchmarks as three indispensable parts for evaluating. Our evaluation shows the advantage of our methodology against using component or micro AI benchmarks alone. The specifications, source code, testbed, and results are publicly available from
updated: Tue Aug 03 2021 04:06:14 GMT+0000 (UTC)
published: Wed May 06 2020 01:24:25 GMT+0000 (UTC)
