arXiv reaDer
オブジェクト検出のために人間のスケッチができること
What Can Human Sketches Do for Object Detection?
スケッチは非常に表現力があり、本質的に主観的できめ細かい視覚的手がかりを捉えています。しかし、人間のスケッチのそのような生来の特性の調査は、画像の検索に限定されています。この論文では、初めて、スケッチの表現力を養いますが、オブジェクト検出の基本的な視覚タスクを対象としています。最終結果は、スケッチに基づいて検出するスケッチ対応のオブジェクト検出フレームワークです。シマウマの群れの中の「シマウマ」(たとえば、草を食べているもの) を検出し (インスタンス認識検出)、希望する部分 (たとえば、「シマウマ」の「頭」) (部分認識検出)。さらに、私たちのモデルは、(i) テストで予想されるカテゴリを知らずに (ゼロ ショット)、(ii) 追加の境界ボックス (完全に教師あり) とクラス ラベル (弱く教師あり) を必要とせずに機能することを指示します。モデルをゼロから考案する代わりに、基盤モデル (CLIP など) とスケッチベースの画像検索 (SBIR) 用に構築された既存のスケッチ モデルとの間の直感的な相乗効果を示します。モデルの一般化、および (スケッチ→写真) ギャップを埋めるための SBIR。具体的には、まず、SBIR モデルのスケッチ ブランチと写真ブランチの両方で独立したプロンプトを実行して、CLIP の一般化機能の裏に高度に一般化可能なスケッチ エンコーダと写真エンコーダを構築します。次に、学習したエンコーダーをオブジェクト検出に適応させるためのトレーニング パラダイムを考案し、検出されたボックスの領域埋め込みが SBIR からのスケッチおよび写真の埋め込みと一致するようにします。 PASCAL-VOC や MS-COCO などの標準的なオブジェクト検出データセットでフレームワークを評価すると、ゼロショット設定で教師あり (SOD) と弱教師ありオブジェクト検出器 (WSOD) の両方よりも優れています。プロジェクトページ: https://pinakinathc.github.io/sketch-detect
Sketches are highly expressive, inherently capturing subjective and fine-grained visual cues. The exploration of such innate properties of human sketches has, however, been limited to that of image retrieval. In this paper, for the first time, we cultivate the expressiveness of sketches but for the fundamental vision task of object detection. The end result is a sketch-enabled object detection framework that detects based on what you sketch -- that ``zebra'' (e.g., one that is eating the grass) in a herd of zebras (instance-aware detection), and only the part (e.g., ``head" of a ``zebra") that you desire (part-aware detection). We further dictate that our model works without (i) knowing which category to expect at testing (zero-shot) and (ii) not requiring additional bounding boxes (as per fully supervised) and class labels (as per weakly supervised). Instead of devising a model from the ground up, we show an intuitive synergy between foundation models (e.g., CLIP) and existing sketch models build for sketch-based image retrieval (SBIR), which can already elegantly solve the task -- CLIP to provide model generalisation, and SBIR to bridge the (sketch→photo) gap. In particular, we first perform independent prompting on both sketch and photo branches of an SBIR model to build highly generalisable sketch and photo encoders on the back of the generalisation ability of CLIP. We then devise a training paradigm to adapt the learned encoders for object detection, such that the region embeddings of detected boxes are aligned with the sketch and photo embeddings from SBIR. Evaluating our framework on standard object detection datasets like PASCAL-VOC and MS-COCO outperforms both supervised (SOD) and weakly-supervised object detectors (WSOD) on zero-shot setups. Project Page: https://pinakinathc.github.io/sketch-detect
updated: Mon Mar 27 2023 12:33:23 GMT+0000 (UTC)
published: Mon Mar 27 2023 12:33:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト