arXiv reaDer
統合されたオープンボキャブラリーの高密度視覚予測
Unified Open-Vocabulary Dense Visual Prediction
近年、オープンボキャブラリー (OV) の高密度視覚予測 (OV オブジェクト検出、セマンティック、インスタンス、パノプティックセグメンテーションなど) が研究の注目を集めています。ただし、既存のアプローチのほとんどはタスク固有のものであり、各タスクに個別に取り組みます。この論文では、4 つの一般的な高密度予測タスクに共同で対処するための Unified Open-Vocabulary Network (UOVN) を提案します。個別のモデルと比較して、統合されたネットワークは、多様な産業用途にとってより望ましいものです。さらに、OV の密な予測トレーニング データは比較的少ないです。個別のネットワークではタスクに関連したトレーニング データのみを利用できますが、統合されたアプローチでは多様なトレーニング データを統合して個々のタスクを強化できます。私たちは、統合 OV 予測における 2 つの大きな課題に取り組みます。まず、固定セット予測の統一手法とは異なり、OV ネットワークは通常、マルチモーダル データを使用してトレーニングされます。したがって、マルチモーダル データをより効果的に活用するために、マルチモーダル、マルチスケール、マルチタスク (MMM) のデコード メカニズムを提案します。第 2 に、UOVN はトレーニングにさまざまなタスクからのデータを使用するため、ドメインとタスクに大きなギャップがあります。このようなギャップを減らすための UOVN トレーニング メカニズムを紹介します。 4 つのデータセットの実験により、UOVN の有効性が実証されました。
In recent years, open-vocabulary (OV) dense visual prediction (such as OV object detection, semantic, instance and panoptic segmentations) has attracted increasing research attention. However, most of existing approaches are task-specific and individually tackle each task. In this paper, we propose a Unified Open-Vocabulary Network (UOVN) to jointly address four common dense prediction tasks. Compared with separate models, a unified network is more desirable for diverse industrial applications. Moreover, OV dense prediction training data is relatively less. Separate networks can only leverage task-relevant training data, while a unified approach can integrate diverse training data to boost individual tasks. We address two major challenges in unified OV prediction. Firstly, unlike unified methods for fixed-set predictions, OV networks are usually trained with multi-modal data. Therefore, we propose a multi-modal, multi-scale and multi-task (MMM) decoding mechanism to better leverage multi-modal data. Secondly, because UOVN uses data from different tasks for training, there are significant domain and task gaps. We present a UOVN training mechanism to reduce such gaps. Experiments on four datasets demonstrate the effectiveness of our UOVN.
updated: Mon Jul 17 2023 04:39:18 GMT+0000 (UTC)
published: Mon Jul 17 2023 04:39:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト