arXiv reaDer
SRCD: 単一ドメインの一般化されたオブジェクト検出のための複合ドメインを使用した意味論的推論
SRCD: Semantic Reasoning with Compound Domains for Single-Domain Generalized Object Detection
この論文は、単一ドメイン一般化オブジェクト検出 (つまり、Single-DGOD) のための新しいフレームワークを提供します。このフレームワークでは、モデルの一般化能力を強化するために、自己拡張された複合クロスドメイン サンプルの意味構造を学習および維持することに興味があります。複数のソース ドメインでトレーニングされた DGOD とは異なり、Single-DGOD は、単一のソース ドメインのみで複数のターゲット ドメインに適切に一般化することがはるかに困難です。既存の方法のほとんどは、DGOD からの同様の処理を採用して、意味空間を分離または圧縮することによってドメイン不変の特徴を学習します。ただし、潜在的な制限が 2 つある可能性があります。1) 単一ドメイン データが非常に少ないため、擬似的な属性ラベルの相関。 2) 意味構造情報は通常無視されます。つまり、サンプル内のインスタンスレベルの意味関係の親和性がモデルの一般化に重要であることがわかりました。このペーパーでは、単一 DGOD 用の複合ドメインによる意味論的推論 (SRCD) を紹介します。具体的には、SRCD には、テクスチャ ベースの自己拡張 (TBSA) モジュールとローカル-グローバル セマンティック推論 (LGSR) モジュールという 2 つの主要コンポーネントが含まれています。 TBSA は、光、影、色など、ラベルに関連付けられた無関係な属性の影響を、軽量でありながら効率的な自己拡張によって画像レベルで排除することを目的としています。さらに、LGSR は、インスタンスの特徴に関する意味関係をさらにモデル化して、固有の意味構造を明らかにして維持するために使用されます。複数のベンチマークに関する広範な実験により、提案された SRCD の有効性が実証されています。
This paper provides a novel framework for single-domain generalized object detection (i.e., Single-DGOD), where we are interested in learning and maintaining the semantic structures of self-augmented compound cross-domain samples to enhance the model's generalization ability. Different from DGOD trained on multiple source domains, Single-DGOD is far more challenging to generalize well to multiple target domains with only one single source domain. Existing methods mostly adopt a similar treatment from DGOD to learn domain-invariant features by decoupling or compressing the semantic space. However, there may have two potential limitations: 1) pseudo attribute-label correlation, due to extremely scarce single-domain data; and 2) the semantic structural information is usually ignored, i.e., we found the affinities of instance-level semantic relations in samples are crucial to model generalization. In this paper, we introduce Semantic Reasoning with Compound Domains (SRCD) for Single-DGOD. Specifically, our SRCD contains two main components, namely, the texture-based self-augmentation (TBSA) module, and the local-global semantic reasoning (LGSR) module. TBSA aims to eliminate the effects of irrelevant attributes associated with labels, such as light, shadow, color, etc., at the image level by a light-yet-efficient self-augmentation. Moreover, LGSR is used to further model the semantic relationships on instance features to uncover and maintain the intrinsic semantic structures. Extensive experiments on multiple benchmarks demonstrate the effectiveness of the proposed SRCD.
updated: Sun Jul 09 2023 06:45:04 GMT+0000 (UTC)
published: Tue Jul 04 2023 14:39:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト