arXiv reaDer
ラベルガイド付きマスクビューおよびカテゴリ認識トランスフォーマーによる不完全なマルチビューマルチラベル学習
Incomplete Multi-View Multi-Label Learning via Label-Guided Masked View- and Category-Aware Transformers
ご存知のように、マルチビュー データはシングルビュー データよりも表現力があり、マルチラベル アノテーションはシングルラベルよりも豊富な監視情報を利用できるため、マルチビュー マルチラベル学習はさまざまなパターン認識タスクに広く適用できます。この複雑な表現学習の問題では、次の 3 つの主な課題を特徴付けることができます。i) すべてのビューでサンプルの一貫した表現を学習する方法は? ii) 推論を導くために、マルチラベルのカテゴリー相関をどのように活用し利用するか? iii) ビューまたはラベルの不完全性から生じる悪影響をどのように回避しますか?これらの問題に対処するために、この論文では、ラベルガイド付きマスクビューおよびカテゴリ認識トランスフォーマーと呼ばれる一般的なマルチビューマルチラベル学習フレームワークを提案します。まず、クロスビュー機能の集約とマルチラベル分類用に、それぞれ 2 つのトランスフォーマー スタイル ベースのモジュールを設計します。前者は、ビュー固有の特徴を抽出するプロセスでさまざまなビューから情報を集約し、後者はサブカテゴリの埋め込みを学習して分類パフォーマンスを向上させます。第二に、ビュー間の表現力の不均衡を考慮して、ビュー一貫性のある埋め込み機能を取得するために、適応的に重み付けされたビュー融合モジュールが提案されます。第三に、サンプルレベルの表現学習にラベル多様体制約を課して、教師付き情報の利用を最大化します。最後になりましたが、すべてのモジュールは不完全なビューとラベルを前提として設計されているため、このメソッドは任意のマルチビューおよびマルチラベル データに適応できます。 5 つのデータセットでの広範な実験により、私たちの方法が他の最先端の方法よりも明らかな利点があることが確認されました。
As we all know, multi-view data is more expressive than single-view data and multi-label annotation enjoys richer supervision information than single-label, which makes multi-view multi-label learning widely applicable for various pattern recognition tasks. In this complex representation learning problem, three main challenges can be characterized as follows: i) How to learn consistent representations of samples across all views? ii) How to exploit and utilize category correlations of multi-label to guide inference? iii) How to avoid the negative impact resulting from the incompleteness of views or labels? To cope with these problems, we propose a general multi-view multi-label learning framework named label-guided masked view- and category-aware transformers in this paper. First, we design two transformer-style based modules for cross-view features aggregation and multi-label classification, respectively. The former aggregates information from different views in the process of extracting view-specific features, and the latter learns subcategory embedding to improve classification performance. Second, considering the imbalance of expressive power among views, an adaptively weighted view fusion module is proposed to obtain view-consistent embedding features. Third, we impose a label manifold constraint in sample-level representation learning to maximize the utilization of supervised information. Last but not least, all the modules are designed under the premise of incomplete views and labels, which makes our method adaptable to arbitrary multi-view and multi-label data. Extensive experiments on five datasets confirm that our method has clear advantages over other state-of-the-art methods.
updated: Mon Mar 13 2023 15:22:50 GMT+0000 (UTC)
published: Mon Mar 13 2023 15:22:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト