arXiv reaDer
Klarna製品ページデータセット:Web表現学習の現実的なベンチマーク
The Klarna Product Page Dataset: A Realistic Benchmark for Web Representation Learning
このホワイトペーパーでは、DOMツリー要素表現学習の未踏の問題に取り組んでいます。私たちは機械学習ベースのWeb自動化の分野を前進させ、この重要な分野に関するさらなる研究を2つの貢献で促進したいと考えています。まず、いくつかの人気のあるグラフベースのニューラルネットワークモデルを適応させ、それらをWebサイトのDOMツリーの埋め込み要素に適用します。次に、Webページの大規模で現実的なデータセットを提示します。このオープンアクセスリソースを提供することで、この研究分野への参入障壁を低くします。データセットには、8,175の実際のeコマースWebサイトから手動でラベル付けされた51,701の製品ページが含まれています。ページは完全にWebブラウザーでレンダリングでき、コンピュータービジョンアプリケーションに適しています。これにより、Webでの要素表現の学習、分類、および予測のために提案された他のデータセットよりも大幅に豊富で多様になります。最後に、提案されたデータセットを使用して、グラフ畳み込みニューラルネットワークによって生成された埋め込みが、Web要素予測タスクの他の最先端の方法によって生成された表現よりも優れていることを示します。
This paper tackles the under-explored problem of DOM tree element representation learning. We advance the field of machine learning-based web automation and hope to spur further research regarding this crucial area with two contributions. First, we adapt several popular Graph-based Neural Network models and apply them to embed elements in website DOM trees. Second, we present a large-scale and realistic dataset of webpages. By providing this open-access resource, we lower the entry barrier to this area of research. The dataset contains 51,701 manually labeled product pages from 8,175 real e-commerce websites. The pages can be rendered entirely in a web browser and are suitable for computer vision applications. This makes it substantially richer and more diverse than other datasets proposed for element representation learning, classification and prediction on the web. Finally, using our proposed dataset, we show that the embeddings produced by a Graph Convolutional Neural Network outperform representations produced by other state-of-the-art methods in a web element prediction task.
updated: Tue Nov 09 2021 15:17:14 GMT+0000 (UTC)
published: Wed Nov 03 2021 12:13:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト