深いネットワークにより視覚認識方法のパフォーマンスが大幅に向上しましたが、実際のアプリケーションに必要な視覚領域全体の堅牢性を達成することは依然として困難です。この問題に取り組むために、ドメインの適応と一般化に関する研究が過去10年間にわたって盛んに行われました。これまでの文献で行われた作業を評価する際に考慮すべき重要な側面は、ソースレベルとターゲットレベルの両方で各アプローチをトレーニングするために必要なデータ注釈の量です。このホワイトペーパーでは、データ注釈のオーバーロードはコストがかかるため、最小限にする必要があると主張しています。したがって、ドメインの一般化と適応を達成するために、自己監視学習を使用することを提案します。注釈付けされていないデータから規則性を学習することを補助的なタスクと見なし、補助学習の原理的なフレームワーク内で問題を投げかけます。さらに、一度に1サンプルずつアルゴリズムにデータが提示されるため、テスト中にターゲットデータから学習することにより、注釈のない画像から視覚領域について学習する機能をさらに活用することをお勧めします。 3つの異なるシナリオの結果は、アプローチの価値を裏付けています。
Although deep networks have significantly increased the performance of visual recognition methods, it is still challenging to achieve the robustness across visual domains that is necessary for real-world applications. To tackle this issue, research on domain adaptation and generalization has flourished over the last decade. An important aspect to consider when assessing the work done in the literature so far is the amount of data annotation necessary for training each approach, both at the source and target level. In this paper we argue that the data annotation overload should be minimal, as it is costly. Hence, we propose to use self-supervised learning to achieve domain generalization and adaptation. We consider learning regularities from non annotated data as an auxiliary task, and cast the problem within an Auxiliary Learning principled framework. Moreover, we suggest to further exploit the ability to learn about visual domains from non annotated images by learning from target data while testing, as data are presented to the algorithm one sample at a time. Results on three different scenarios confirm the value of our approach.