教師なしドメイン適応(UDA)は、ラベル付きのソースドメインデータセットでトレーニングされたモデルをラベルなしのターゲットドメインデータセットに適応させることを目的としています。オープンセットの個人の再識別(re-ID)に関するUDAのタスクは、ID(クラス)が2つのドメイン間で重複していないため、さらに困難です。主要な研究の方向性の1つはドメイン翻訳に基づいていましたが、疑似ラベルベースの方法に比べてパフォーマンスが低いため、近年は支持されなくなりました。ドメイン変換は、貴重なソースドメインデータを活用する上で大きな可能性を秘めていると主張しますが、既存の方法では、変換プロセスに適切な正則化が提供されませんでした。具体的には、以前の方法は、翻訳中のサンプル間の関係を無視しながら、翻訳された画像のアイデンティティを維持することにのみ焦点を当てています。課題に取り組むために、オンラインの関係整合性正則化用語を使用したエンドツーエンドの構造化ドメイン適応フレームワークを提案します。トレーニング中、人物機能エンコーダーは、サンプル間の関係をオンザフライでモデル化して、関係の一貫性ドメインの翻訳を監視するように最適化されます。これにより、有益な翻訳画像でエンコーダーが改善されます。エンコーダーは、疑似ラベルを使用してさらに改善できます。この場合、グラウンドトゥルースIDを持つソースからターゲットへの変換された画像と、疑似IDを持つターゲットドメイン画像がトレーニングに共同で使用されます。実験では、提案されたフレームワークが、人物re-IDの複数のUDAタスクで最先端のパフォーマンスを達成することが示されています。構造化されたドメイン翻訳ネットワークからの合成から実際への翻訳画像により、2020年にビジュアルドメイン適応チャレンジ(VisDA)で2位を獲得しました。
Unsupervised domain adaptation (UDA) aims at adapting the model trained on a labeled source-domain dataset to an unlabeled target-domain dataset. The task of UDA on open-set person re-identification (re-ID) is even more challenging as the identities (classes) do not have overlap between the two domains. One major research direction was based on domain translation, which, however, has fallen out of favor in recent years due to inferior performance compared to pseudo-label-based methods. We argue that the domain translation has great potential on exploiting the valuable source-domain data but existing methods did not provide proper regularization on the translation process. Specifically, previous methods only focus on maintaining the identities of the translated images while ignoring the inter-sample relations during translation. To tackle the challenges, we propose an end-to-end structured domain adaptation framework with an online relation-consistency regularization term. During training, the person feature encoder is optimized to model inter-sample relations on-the-fly for supervising relation-consistency domain translation, which in turn, improves the encoder with informative translated images. The encoder can be further improved with pseudo labels, where the source-to-target translated images with ground-truth identities and target-domain images with pseudo identities are jointly used for training. In the experiments, our proposed framework is shown to achieve state-of-the-art performance on multiple UDA tasks of person re-ID. With the synthetic-to-real translated images from our structured domain-translation network, we achieved second place in the Visual Domain Adaptation Challenge (VisDA) in 2020.