arXiv reaDer
UniAP: 少数ショット学習による視覚における普遍的な動物の知覚に向けて
UniAP: Towards Universal Animal Perception in Vision via Few-shot Learning
動物の視覚認識は、動物の健康状態を自動的に監視し、動物の行動を理解し、動物関連の研究を支援するための重要な技術です。しかし、多種多様な動物のさまざまな姿勢、希少種に関するデータの欠如、および異なる種の意味論的矛盾のため、さまざまな知覚タスクにわたってさまざまな動物に自由に適応できる深層学習ベースの知覚モデルを設計することは困難です。タスク。少数ショット学習を活用して、さまざまな視覚タスク間で種を超えた知覚を可能にする、新しいユニバーサル動物知覚モデルである UniAP を紹介します。私たちが提案するモデルは、クエリ画像に対するプロンプト ガイダンスとしてサポート画像とラベルを受け取ります。画像とラベルは、それぞれ Transformer ベースのエンコーダーと軽量ラベル エンコーダーを通じて処理されます。次に、プロンプト ガイダンスとクエリ画像の間の情報を集約するマッチング モジュールが設計され、続いてマルチヘッド ラベル デコーダがさまざまなタスクの出力を生成します。 UniAP は、さまざまな動物やタスク間で共有される視覚的特徴を利用することにより、よく研究されている種から、ラベル付けされたデータが限られている種、さらには未確認の種への知識の伝達を可能にします。私たちは、多様な動物種に対する姿勢推定、セグメンテーション、分類タスクにおける包括的な実験を通じて UniAP の有効性を実証し、最小限のラベル付き例で新しいクラスに一般化して適応する機能を示します。
Animal visual perception is an important technique for automatically monitoring animal health, understanding animal behaviors, and assisting animal-related research. However, it is challenging to design a deep learning-based perception model that can freely adapt to different animals across various perception tasks, due to the varying poses of a large diversity of animals, lacking data on rare species, and the semantic inconsistency of different tasks. We introduce UniAP, a novel Universal Animal Perception model that leverages few-shot learning to enable cross-species perception among various visual tasks. Our proposed model takes support images and labels as prompt guidance for a query image. Images and labels are processed through a Transformer-based encoder and a lightweight label encoder, respectively. Then a matching module is designed for aggregating information between prompt guidance and the query image, followed by a multi-head label decoder to generate outputs for various tasks. By capitalizing on the shared visual characteristics among different animals and tasks, UniAP enables the transfer of knowledge from well-studied species to those with limited labeled data or even unseen species. We demonstrate the effectiveness of UniAP through comprehensive experiments in pose estimation, segmentation, and classification tasks on diverse animal species, showcasing its ability to generalize and adapt to new classes with minimal labeled examples.
updated: Sat Aug 19 2023 09:13:46 GMT+0000 (UTC)
published: Sat Aug 19 2023 09:13:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト