Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection
詳細な検出モデルは、制御された設定では非常に強力であることが大部分で示されていますが、見えないドメインに既成のものを適用すると、脆弱に見え、失敗します。この問題を修正するために開発されたすべての適応アプローチは、トレーニング時にかなりの量のターゲット サンプルにアクセスします。ターゲットが不明で、そのデータが事前に利用できない場合、戦略は適切ではありません。たとえば、ソーシャル メディアからの画像フィードを監視するタスクを考えてみましょう。すべての画像は異なるユーザーによってアップロードされるため、トレーニング中に予測することは不可能な異なるターゲット ドメインに属します。私たちの仕事はこの設定に対処し、テスト時に見られる1つのターゲットサンプルのみを使用することで、ドメイン全体で教師なし適応を実行できるオブジェクト検出アルゴリズムを提示します。自己監視タスクを繰り返し解決することにより、任意の入力サンプルにワンショットが適応するマルチタスク アーキテクチャを導入します。さらに、メタ学習を活用して、単一サンプルのクロスドメイン学習エピソードをシミュレートし、テスト条件により適切に調整します。さらに、クロスタスク疑似ラベリング手順により、画像の前景に焦点を当てることができ、適応プロセスが強化されます。最新のクロスドメイン検出方法に対する徹底的なベンチマーク分析と詳細なアブレーション研究は、私たちのアプローチの利点を示しています。
Deep detection models have largely demonstrated to be extremely powerful in controlled settings, but appear brittle and fail when applied off-the-shelf on unseen domains. All the adaptive approaches developed to amend this issue access a sizable amount of target samples at training time, a strategy not suitable when the target is unknown and its data are not available in advance. Consider for instance the task of monitoring image feeds from social media: as every image is uploaded by a different user it belongs to a different target domain that is impossible to foresee during training. Our work addresses this setting, presenting an object detection algorithm able to perform unsupervised adaptation across domains by using only one target sample, seen at test time. We introduce a multi-task architecture that one-shot adapts to any incoming sample by iteratively solving a self-supervised task on it. We further exploit meta-learning to simulate single-sample cross domain learning episodes and better align to the test condition. Moreover, a cross-task pseudo-labeling procedure allows to focus on the image foreground and enhances the adaptation process. A thorough benchmark analysis against the most recent cross-domain detection methods and a detailed ablation study show the advantage of our approach.
