Self-Supervised Object Detection via Generative Image Synthesis
自己監視オブジェクト検出のタスクのための制御可能なGANを備えた合成フレームワークによる最初のエンドツーエンド分析であるSSODを紹介します。オブジェクトの合成と検出を学習するために、バウンディングボックス注釈のない実世界の画像のコレクションを使用します。制御可能なGANを活用して、事前定義されたオブジェクトプロパティを持つ画像を合成し、それらを使用してオブジェクト検出器をトレーニングします。システムを最適にトレーニングするために、合成ネットワークと検出ネットワークの緊密なエンドツーエンドの結合を提案します。最後に、ラベルを必要とせずに、意図したターゲットデータにSSODを最適に適合させる方法も提案します。車の検出のタスクについては、挑戦的なKITTIおよびCityscapesデータセットで、SSODが以前の最先端の純粋な画像ベースの自己監視オブジェクト検出方法Wetectronよりも優れていることを示します。 3D CADアセットを必要とせずに、最先端のレンダリングベースのメソッドMeta-Sim2を上回ります。私たちの仕事は、制御可能なGANベースの画像合成を使用するという成功した新しいパラダイムを導入し、タスクのベースライン精度を大幅に向上させることにより、自己監視オブジェクト検出の分野を前進させます。でコードをオープンソース化します。
We present SSOD, the first end-to-end analysis-by synthesis framework with controllable GANs for the task of self-supervised object detection. We use collections of real world images without bounding box annotations to learn to synthesize and detect objects. We leverage controllable GANs to synthesize images with pre-defined object properties and use them to train object detectors. We propose a tight end-to-end coupling of the synthesis and detection networks to optimally train our system. Finally, we also propose a method to optimally adapt SSOD to an intended target data without requiring labels for it. For the task of car detection, on the challenging KITTI and Cityscapes datasets, we show that SSOD outperforms the prior state-of-the-art purely image-based self-supervised object detection method Wetectron. Even without requiring any 3D CAD assets, it also surpasses the state-of-the-art rendering based method Meta-Sim2. Our work advances the field of self-supervised object detection by introducing a successful new paradigm of using controllable GAN-based image synthesis for it and by significantly improving the baseline accuracy of the task. We open-source our code at
updated: Tue Oct 19 2021 11:04:05 GMT+0000 (UTC)
published: Tue Oct 19 2021 11:04:05 GMT+0000 (UTC)
