Sketch-Specific Data Augmentation for Freehand Sketch Recognition
スケッチ認識は、限られたトレーニングデータと、同じオブジェクトのフリーハンドスケッチのクラス内の大幅な差異のため、依然として重要な課題です。このタスクの従来の方法は、スケッチストロークの時間的順序の可用性、さまざまなモダリティから取得した追加の手がかり、実際の画像を使用したスケッチデータセットの監視された拡張に依存することが多く、実際のシナリオでのこれらの方法の適用性と実現可能性も制限されます。この論文では、スケッチの量と質を自動的に活用する新しいスケッチ固有のデータ拡張(SSDA)手法を提案します。量の観点から、トレーニングデータを充実させるためにベジェピボットベースの変形(BPD)戦略を導入します。品質向上に向けて、クラス内分散が小さい新しいタイプのスケッチのセットを生成するための平均ストローク再構成(MSR)アプローチを提示します。これらのソリューションはどちらも、マルチソースデータやスケッチの一時的な手がかりから制限されていません。さらに、実像のジェネリッククラスでトレーニングされた最近の深い畳み込みニューラルネットワークモデルは、スケッチ認識用に明示的に設計されたほとんどの精巧なアーキテクチャよりも優れた選択肢になる可能性があることを示します。 SSDAは任意の畳み込みニューラルネットワークと統合できるため、既存の方法に比べて明確な利点があります。私たちの広範な実験的評価は、提案された方法がTU-Berlinデータセットで最先端の結果(84.27%)を達成し、人間のパフォーマンスを11.17%も大幅に上回っていることを示しています。最後に、より多くの実験が、スケッチベースの画像検索のタスクに対する私たちのアプローチの実用的な価値を示しています。
Sketch recognition remains a significant challenge due to the limited training data and the substantial intra-class variance of freehand sketches for the same object. Conventional methods for this task often rely on the availability of the temporal order of sketch strokes, additional cues acquired from different modalities and supervised augmentation of sketch datasets with real images, which also limit the applicability and feasibility of these methods in real scenarios. In this paper, we propose a novel sketch-specific data augmentation (SSDA) method that leverages the quantity and quality of the sketches automatically. From the aspect of quantity, we introduce a Bezier pivot based deformation (BPD) strategy to enrich the training data. Towards quality improvement, we present a mean stroke reconstruction (MSR) approach to generate a set of novel types of sketches with smaller intra-class variances. Both of these solutions are unrestricted from any multi-source data and temporal cues of sketches. Furthermore, we show that some recent deep convolutional neural network models that are trained on generic classes of real images can be better choices than most of the elaborate architectures that are designed explicitly for sketch recognition. As SSDA can be integrated with any convolutional neural networks, it has a distinct advantage over the existing methods. Our extensive experimental evaluations demonstrate that the proposed method achieves the state-of-the-art results (84.27%) on the TU-Berlin dataset, outperforming the human performance by a remarkable 11.17% increase. Finally, more experiments show the practical value of our approach for the task of sketch-based image retrieval.
updated: Thu Dec 03 2020 07:10:49 GMT+0000 (UTC)
published: Mon Oct 14 2019 11:15:07 GMT+0000 (UTC)
