arXiv reaDer
弱く対になった画像スタイルの翻訳のためのポーズのランダム化
Pose Randomization for Weakly Paired Image Style Translation
データ注釈なしでさまざまな条件下でトレーニング済みモデルを利用することは、ロボットアプリケーションにとって魅力的です。この目標に向けて、メソッドの1つのクラスは、トレーニング環境から現在の環境に画像スタイルを変換することです。画像スタイルの翻訳に関する従来の研究は、主に2つの設定に焦点を当てています。正確に位置合わせされたコンテンツを持つ2つのドメインからの画像のペアデータと、独立したコンテンツを持つペアでないデータです。本稿では、2つの画像の内容をポーズの誤差に合わせた新しい設定を提案したい。さまざまなセンサーを備えたロボットは、さまざまなスタイルであっても、データをあるエラーレベルまで調整できるため、この設定はより実用的であると考えています。この問題を解決するために、PRoGANは、元のドメイン画像をノイズの多いポーズで意図的に変換し、変換された変換画像の分布とターゲットドメイン画像の分布を一致させることによってスタイルトランスレータを学習することを提案します。敵対的なトレーニングは、ネットワークにスタイルの翻訳を学習させ、他のバリエーションに巻き込まれないようにします。さらに、パフォーマンスをさらに向上させるために、2つのポーズ推定ベースの自己監視タスクを提案します。最後に、PRoGANは、シミュレーションと実際に収集されたデータの両方で検証され、有効性が示されます。ダウンストリームタスク、分類、道路セグメンテーション、オブジェクト検出、および機能マッチングの結果は、実際のアプリケーションの可能性を示しています。 https://github.com/wrld/PRoGAN。
Utilizing the trained model under different conditions without data annotation is attractive for robot applications. Towards this goal, one class of methods is to translate the image style from the training environment to the current one. Conventional studies on image style translation mainly focus on two settings: paired data on images from two domains with exactly aligned content, and unpaired data, with independent content. In this paper, we would like to propose a new setting, where the content in the two images is aligned with error in poses. We consider that this setting is more practical since robots with various sensors are able to align the data up to some error level, even with different styles. To solve this problem, we propose PRoGAN to learn a style translator by intentionally transforming the original domain images with a noisy pose, then matching the distribution of translated transformed images and the distribution of the target domain images. The adversarial training enforces the network to learn the style translation, avoiding being entangled with other variations. In addition, we propose two pose estimation based self-supervised tasks to further improve the performance. Finally, PRoGAN is validated on both simulated and real-world collected data to show the effectiveness. Results on down-stream tasks, classification, road segmentation, object detection, and feature matching show its potential for real applications. https://github.com/wrld/PRoGAN .
updated: Sat Oct 31 2020 16:11:11 GMT+0000 (UTC)
published: Sat Oct 31 2020 16:11:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト