arXiv reaDer
マルチドメインからの自己監視学習のためのドメイン不変マスクオートエンコーダ
Domain Invariant Masked Autoencoders for Self-supervised Learning from Multi-domains
学習した表現を大幅に異なる視覚領域にわたって一般化することは、人間の視覚システムの基本的でありながら重要な能力です。最近の自己監視学習方法は、トレーニングセットと同じドメインで評価セットを使用して良好なパフォーマンスを達成しましたが、別のドメインでテストすると、望ましくないパフォーマンスの低下が見られます。したがって、複数のドメインからの自己監視学習タスクは、トレーニングセットと同じドメインでの評価に適しているだけでなく、見えないドメインに一般化できるドメイン不変の機能を学習するために提案されています。本論文では、マルチドメインからの自己監視学習のためのドメイン不変マスクオートエンコーダ(DiMAE)を提案します。これは、ドメイン不変機能を学習するための新しい口実タスク、つまりクロスドメイン再構成タスクを設計します。中心的なアイデアは、さまざまなドメインからのスタイルノイズで入力画像を拡張し、拡張された画像の埋め込みから画像を再構築し、エンコーダを正規化してドメイン不変の機能を学習することです。このアイデアを実現するために、DiMAEには2つの重要な設計が含まれています。1)他のドメインからのスタイル情報を入力に追加し、パラメーターを使用せずにコンテンツを保持するコンテンツ保存スタイルミックスと、2)回復する複数のドメイン固有のデコーダーです。再構成のためのエンコードされたドメイン不変の特徴への入力の対応するドメインスタイル。 PACSとDomainNetでの実験は、DiMAEが最近の最先端の方法と比較してかなりの利益を達成していることを示しています。
Generalizing learned representations across significantly different visual domains is a fundamental yet crucial ability of the human visual system. While recent self-supervised learning methods have achieved good performances with evaluation set on the same domain as the training set, they will have an undesirable performance decrease when tested on a different domain. Therefore, the self-supervised learning from multiple domains task is proposed to learn domain-invariant features that are not only suitable for evaluation on the same domain as the training set but also can be generalized to unseen domains. In this paper, we propose a Domain-invariant Masked AutoEncoder (DiMAE) for self-supervised learning from multi-domains, which designs a new pretext task, i.e., the cross-domain reconstruction task, to learn domain-invariant features. The core idea is to augment the input image with style noise from different domains and then reconstruct the image from the embedding of the augmented image, regularizing the encoder to learn domain-invariant features. To accomplish the idea, DiMAE contains two critical designs, 1) content-preserved style mix, which adds style information from other domains to input while persevering the content in a parameter-free manner, and 2) multiple domain-specific decoders, which recovers the corresponding domain style of input to the encoded domain-invariant features for reconstruction. Experiments on PACS and DomainNet illustrate that DiMAE achieves considerable gains compared with recent state-of-the-art methods.
updated: Tue May 10 2022 09:49:40 GMT+0000 (UTC)
published: Tue May 10 2022 09:49:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト