arXiv reaDer
ImaginaryNet: 実画像と注釈のないオブジェクト検出器の学習
ImaginaryNet: Learning Object Detectors without Real Images and Annotations
実際にトレーニングする必要がなくても、人間は言語記述に基づいて既知の概念を簡単に検出できます。この機能で深層学習を強化することで、ニューラル ネットワークは、実際の画像を収集して注釈を付けることなく、複雑なビジョン タスク (物体検出など) を処理できるようになります。この目的のために、このホワイトペーパーでは、オブジェクト検出器のトレーニングに実際の画像も手動注釈も許可されていない、新しい挑戦的な学習パラダイム、仮想教師ありオブジェクト検出 (ISOD) を紹介します。この課題を解決するために、事前学習済みの言語モデルとテキストから画像への合成モデルを組み合わせて画像を合成するフレームワークである ImaginaryNet を提案します。クラス ラベルを指定すると、言語モデルを使用してターゲット オブジェクトを含むシーンの完全な説明を生成し、テキストから画像へのモデルを展開して写真のようにリアルな画像を生成します。合成された画像とクラス ラベルを使用すると、弱教師付きオブジェクト検出を利用して ISOD を実現できます。実際の画像と手動の注釈を徐々に導入することで、ImaginaryNet は他の監視設定と連携して検出パフォーマンスをさらに向上させることができます。実験によると、ImaginaryNet は、(i) 実際のデータでトレーニングされた同じバックボーンの弱く監視された対応物と比較して、ISOD で約 70% のパフォーマンスを得ることができます。(ii) ベースラインを大幅に改善しながら、最先端または同等のパフォーマンスをImaginaryNet を他の監視設定に組み込む。
Without the demand of training in reality, humans can easily detect a known concept simply based on its language description. Empowering deep learning with this ability undoubtedly enables the neural network to handle complex vision tasks, e.g., object detection, without collecting and annotating real images. To this end, this paper introduces a novel challenging learning paradigm Imaginary-Supervised Object Detection (ISOD), where neither real images nor manual annotations are allowed for training object detectors. To resolve this challenge, we propose ImaginaryNet, a framework to synthesize images by combining pretrained language model and text-to-image synthesis model. Given a class label, the language model is used to generate a full description of a scene with a target object, and the text-to-image model deployed to generate a photo-realistic image. With the synthesized images and class labels, weakly supervised object detection can then be leveraged to accomplish ISOD. By gradually introducing real images and manual annotations, ImaginaryNet can collaborate with other supervision settings to further boost detection performance. Experiments show that ImaginaryNet can (i) obtain about 70% performance in ISOD compared with the weakly supervised counterpart of the same backbone trained on real data, (ii) significantly improve the baseline while achieving state-of-the-art or comparable performance by incorporating ImaginaryNet with other supervision settings.
updated: Thu Oct 13 2022 10:25:22 GMT+0000 (UTC)
published: Thu Oct 13 2022 10:25:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト