arXiv reaDer
見えない領域でのショットオブジェクトの検出はほとんどありません
Few-Shot Object Detection in Unseen Domains
数ショットオブジェクト検出(FSOD)は、豊富な基本クラスで得られた知識を転送することにより、限られたデータで新しいオブジェクトクラスを学習するために近年繁栄しています。 FSODのアプローチでは、一般的に、ほとんど提供されていない新しいクラスの例とテスト時間データの両方が同じドメインに属していると想定しています。ただし、この仮定は、モデルが別のターゲットドメインのクラスを推測しながら、ソースドメインから新しいクラスを学習できる、さまざまな産業およびロボット工学のアプリケーション(オブジェクトの把握や操作など)には当てはまりません。この作業では、FSODのゼロショットドメイン適応(ドメイン一般化とも呼ばれます)のタスクに対処します。具体的には、ターゲットドメインの新規クラスの画像もラベルもトレーニング中に利用できないと想定しています。ドメインギャップを解決するための私たちのアプローチは2つあります。まず、メタトレーニングパラダイムを活用します。このパラダイムでは、基本クラスでドメイン不変の機能を学習します。次に、すべての可能なドメイン固有の情報を説明するために、新しいクラスのいくつかのショットでさまざまなデータ拡張手法を提案します。ネットワークをドメインに依存しないクラス固有の表現のみをエンコードするようにさらに制約するために、前景の提案とクラスのプロトタイプの間の相互情報量を最大化し、ネットワークの背景情報へのバイアスを減らすために、対照的な損失が提案されます。 T-LESSデータセットに関する私たちの実験は、提案されたアプローチが、ターゲットドメインからの新しいカテゴリのラベルまたは画像を利用することなく、ドメインギャップを大幅に緩和することに成功することを示しています。
Few-shot object detection (FSOD) has thrived in recent years to learn novel object classes with limited data by transfering knowledge gained on abundant base classes. FSOD approaches commonly assume that both the scarcely provided examples of novel classes and test-time data belong to the same domain. However, this assumption does not hold in various industrial and robotics applications (e.g., object grasping and manipulation), where a model can learn novel classes from a source domain while inferring on classes from a different target domain. In this work, we address the task of zero-shot domain adaptation, also known as domain generalization, for FSOD. Specifically, we assume that neither images nor labels of the novel classes in the target domain are available during training. Our approach for solving the domain gap is two-fold. First, we leverage a meta-training paradigm, where we learn domain-invariant features on the base classes. Second, we propose various data augmentations techniques on the few shots of novel classes to account for all possible domain-specific information. To further constraint the network into encoding domain-agnostic class-specific representations only, a contrastive loss is proposed to maximize the mutual information between foreground proposals and class prototypes, and to reduce the network's bias to the background information. Our experiments on the T-LESS dataset show that the proposed approach succeeds in alleviating the domain gap considerably without utilizing labels or images of novel categories from the target domain.
updated: Mon Apr 11 2022 13:16:41 GMT+0000 (UTC)
published: Mon Apr 11 2022 13:16:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト