このホワイトペーパーでは、画像のさまざまなデータ形式であるベクターグラフィックについて検討します。画像認識で広く使用されているラスターグラフィックスとは対照的に、ベクターグラフィックスは、ドキュメント内のプリミティブの分析表現により、エイリアシングや情報の損失なしに任意の解像度に拡大または縮小できます。さらに、ベクターグラフィックスは、低レベルの要素がどのようにグループ化されて高レベルの形状または構造を形成するかについての追加の構造情報を提供できます。グラフィックベクトルのこれらのメリットは、既存の方法では十分に活用されていません。このデータ形式を調査するために、基本的な認識タスクであるオブジェクトのローカリゼーションと分類を対象としています。グラフィックをピクセルにレンダリングせず(つまりラスタライズ)、YOLaT(You Only Look at Text)と呼ばれるベクターグラフィックのテキストドキュメントを入力として受け取る、効率的なCNNフリーのパイプラインを提案します。 YOLaTは、ベクトルグラフィックスの構造的および空間的情報をモデル化するためにマルチグラフを作成し、グラフからオブジェクトを検出するためにデュアルストリームグラフニューラルネットワークが提案されています。私たちの実験は、ベクターグラフィックスを直接操作することにより、YOLaTが平均精度と効率の両方の点でラスターグラフィックスベースのオブジェクト検出ベースラインよりも優れていることを示しています。
In this paper, we consider a different data format for images: vector graphics. In contrast to raster graphics which are widely used in image recognition, vector graphics can be scaled up or down into any resolution without aliasing or information loss, due to the analytic representation of the primitives in the document. Furthermore, vector graphics are able to give extra structural information on how low-level elements group together to form high level shapes or structures. These merits of graphic vectors have not been fully leveraged in existing methods. To explore this data format, we target on the fundamental recognition tasks: object localization and classification. We propose an efficient CNN-free pipeline that does not render the graphic into pixels (i.e. rasterization), and takes textual document of the vector graphics as input, called YOLaT (You Only Look at Text). YOLaT builds multi-graphs to model the structural and spatial information in vector graphics, and a dual-stream graph neural network is proposed to detect objects from the graph. Our experiments show that by directly operating on vector graphics, YOLaT out-performs raster-graphic based object detection baselines in terms of both average precision and efficiency.