arXiv reaDer
人間のインスタンスのためのオブジェクト中心のマルチタスク学習
Object-Centric Multi-Task Learning for Human Instances
人間は、検出、セグメンテーション、姿勢推定などの視覚認識タスクで最も重要なクラスの 1 つです。個々のタスクには多くの努力が注がれていますが、これら 3 つのタスクのマルチタスク学習はほとんど研究されていません。この論文では、オブジェクト中心の学習を介して複数のタスクのパラメーターを最大限に共有するコンパクトなマルチタスク ネットワーク アーキテクチャについて説明します。この目的のために、人間中心のクエリ (HCQ) と呼ばれる、人間のインスタンス情報を効果的にエンコードするための新しいクエリ設計を提案します。 HCQ は、キーポイントなどの人間の明示的かつ構造的な情報をクエリで学習できるようにします。さらに、HCQ をターゲット タスクの予測ヘッドで直接利用し、HCQ を Transformer デコーダーの変形可能なアテンションと織り交ぜて、よく学習されたオブジェクト中心の表現を活用します。実験結果は、提案されたマルチタスク ネットワークが、人間の検出、セグメンテーション、姿勢推定タスクで最先端のタスク固有のモデルに匹敵する精度を達成する一方で、消費する計算コストが少ないことを示しています。
Human is one of the most essential classes in visual recognition tasks such as detection, segmentation, and pose estimation. Although much effort has been put into individual tasks, multi-task learning for these three tasks has been rarely studied. In this paper, we explore a compact multi-task network architecture that maximally shares the parameters of the multiple tasks via object-centric learning. To this end, we propose a novel query design to encode the human instance information effectively, called human-centric query (HCQ). HCQ enables for the query to learn explicit and structural information of human as well such as keypoints. Besides, we utilize HCQ in prediction heads of the target tasks directly and also interweave HCQ with the deformable attention in Transformer decoders to exploit a well-learned object-centric representation. Experimental results show that the proposed multi-task network achieves comparable accuracy to state-of-the-art task-specific models in human detection, segmentation, and pose estimation task, while it consumes less computational costs.
updated: Mon Mar 13 2023 01:10:50 GMT+0000 (UTC)
published: Mon Mar 13 2023 01:10:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト