ドローイングは、絵による抽象化とコミュニケーションの強力な手段です。デジタル アート、漫画、コミックなど、さまざまな形式の描画を理解することは、コンピューター ビジョンとコンピューター グラフィックスのコミュニティにとって大きな関心事です。コミックや漫画のデジタル化された図は大量にありますが、膨大なスタイルのバリエーションが含まれているため、ドメイン固有の認識エンジンをトレーニングするための高価な手動ラベル付けが必要になります。この作業では、変更された学生ネットワーク更新設計を使用した教師と学生のネットワークに基づく自己教師あり学習を使用して、顔と体の検出器を構築する方法を示します。私たちのセットアップでは、ラベルがその小さなサブセットのみに提供されている場合に、ターゲット ドメインから大量のラベルのないデータを利用できます。さらに、スタイル転送を学習パイプラインに組み込んで、自然画像 (つまり、現実世界の画像) からの膨大な量のドメイン外のラベル付き画像を使用して検出器をブートストラップできることを示します。組み合わせたアーキテクチャにより、最小限のアノテーション作業で最先端 (SOTA) および SOTA に近いパフォーマンスを備えた検出器が得られます。コードは https://github.com/barisbatuhan/DASS_Detector からアクセスできます。
Drawings are powerful means of pictorial abstraction and communication. Understanding diverse forms of drawings, including digital arts, cartoons, and comics, has been a major problem of interest for the computer vision and computer graphics communities. Although there are large amounts of digitized drawings from comic books and cartoons, they contain vast stylistic variations, which necessitate expensive manual labeling for training domain-specific recognizers. In this work, we show how self-supervised learning, based on a teacher-student network with a modified student network update design, can be used to build face and body detectors. Our setup allows exploiting large amounts of unlabeled data from the target domain when labels are provided for only a small subset of it. We further demonstrate that style transfer can be incorporated into our learning pipeline to bootstrap detectors using a vast amount of out-of-domain labeled images from natural images (i.e., images from the real world). Our combined architecture yields detectors with state-of-the-art (SOTA) and near-SOTA performance using minimal annotation effort. Our code can be accessed from https://github.com/barisbatuhan/DASS_Detector.