この論文では、フリーハンドスケッチの部分レベルの意味解析のための新しい深いフレームワークを提案します。これは、実質的な実用上のメリットがあることが実験的に示されている3つの主要な貢献をします。まず、ドメイン適応の問題に対処するための均一変換法を提案します。スケッチ解析のタスクでは、モデルのトレーニングに直接使用できるラベル付きのフリーハンドスケッチの利用可能なデータはありません。別の解決策は、実際の画像解析のデータセットから学習することですが、ドメインの適応は避けられない問題です。実像のエッジマップを利用してフリーハンドスケッチを近似する既存の方法とは異なり、提案された同次変換方法は、実画像とフリーハンドスケッチのドメインからのデータを同種空間に変換してセマンティックギャップを最小限に抑えます。次に、トレーニングプロセスのガイダンスとしてソフト加重損失関数を設計します。これにより、あいまいなラベル境界とクラスの不均衡の両方に注意が向けられます。第三に、訓練されたモデルの解析パフォーマンスを改善するための段階的な学習戦略を提示します。これは、さまざまなスケッチカテゴリからの共有情報と特定の特性を利用します。広範な実験結果は、上記の3つの方法の有効性を示しています。具体的には、同次変換法の一般化能力を評価するために、スケッチベースの画像検索のタスクのための追加の実験がQMULFG-SBIRデータセットで実行されます。最後に、提案された3つの方法をディープセマンティックスケッチ解析の統合フレームワーク(DeepSSP)に統合することにより、パブリックSketchParseデータセットで最先端を実現します。
In this paper, we propose a novel deep framework for part-level semantic parsing of freehand sketches, which makes three main contributions that are experimentally shown to have substantial practical merit. First, we propose a homogeneous transformation method to address the problem of domain adaptation. For the task of sketch parsing, there is no available data of labeled freehand sketches that can be directly used for model training. An alternative solution is to learn from datasets of real image parsing, while the domain adaptation is an inevitable problem. Unlike existing methods that utilize the edge maps of real images to approximate freehand sketches, the proposed homogeneous transformation method transforms the data from domains of real images and freehand sketches into a homogeneous space to minimize the semantic gap. Second, we design a soft-weighted loss function as guidance for the training process, which gives attention to both the ambiguous label boundary and class imbalance. Third, we present a staged learning strategy to improve the parsing performance of the trained model, which takes advantage of the shared information and specific characteristic from different sketch categories. Extensive experimental results demonstrate the effectiveness of the above three methods. Specifically, to evaluate the generalization ability of our homogeneous transformation method, additional experiments for the task of sketch-based image retrieval are conducted on the QMUL FG-SBIR dataset. Finally, by integrating the proposed three methods into a unified framework of deep semantic sketch parsing (DeepSSP), we achieve the state-of-the-art on the public SketchParse dataset.