arXiv reaDer
マルチモーダル集中知識グラフ伝播による目に見えないオブジェクトの認識
Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph Propagation
ゼロショット学習 (ZSL) は、目に見えないオブジェクトを自動的に認識することを目的としており、機械が現実世界の新しい知識を継続的に理解するための有望な学習パラダイムです。最近、ナレッジ グラフ (KG) が、大規模で属性のないデータを使用したゼロショット タスクを処理するための効果的なスキームであることが証明されました。先行研究では常に、目に見えないデータの認知能力を促進するために、既存の知識グラフからの視覚情報に、見えるオブジェクトと見えないオブジェクトの関係が埋め込まれています。実際、現実世界の知識は、多様な事実によって自然に形成されます。グラフの観点から見た通常の構造知識と比較して、マルチモーダル KG は認知システムに詳細な知識を提供できます。たとえば、テキストの説明と視覚的なコンテンツは、知識の 3 つの要素だけに依存するよりも、事実のより重要な詳細を描写できます。残念ながら、このマルチモーダルのきめ細かい知識は、異なるモダリティ間の機能調整のボトルネックにより、ほとんど活用されていません。そのために、設計された高密度注意モジュールと自己校正損失を介して、画像の領域を対応するセマンティック埋め込みと照合するマルチモーダル集中 ZSL フレームワークを提案します。これにより、ZSL フレームワークのセマンティック転送プロセスがエンティティ間でより差別化された知識を学習できるようになります。私たちのモデルは、大まかなグローバル機能のみを使用するというパフォーマンスの制限も取り除きます。私たちは広範な実験を実施し、大規模な実世界のデータに基づいてモデルを評価します。実験結果は、標準的なゼロショット分類タスクにおける提案されたモデルの有効性を明確に示しています。
Zero-Shot Learning (ZSL), which aims at automatically recognizing unseen objects, is a promising learning paradigm to understand new real-world knowledge for machines continuously. Recently, the Knowledge Graph (KG) has been proven as an effective scheme for handling the zero-shot task with large-scale and non-attribute data. Prior studies always embed relationships of seen and unseen objects into visual information from existing knowledge graphs to promote the cognitive ability of the unseen data. Actually, real-world knowledge is naturally formed by multimodal facts. Compared with ordinary structural knowledge from a graph perspective, multimodal KG can provide cognitive systems with fine-grained knowledge. For example, the text description and visual content can depict more critical details of a fact than only depending on knowledge triplets. Unfortunately, this multimodal fine-grained knowledge is largely unexploited due to the bottleneck of feature alignment between different modalities. To that end, we propose a multimodal intensive ZSL framework that matches regions of images with corresponding semantic embeddings via a designed dense attention module and self-calibration loss. It makes the semantic transfer process of our ZSL framework learns more differentiated knowledge between entities. Our model also gets rid of the performance limitation of only using rough global features. We conduct extensive experiments and evaluate our model on large-scale real-world data. The experimental results clearly demonstrate the effectiveness of the proposed model in standard zero-shot classification tasks.
updated: Wed Jun 14 2023 13:07:48 GMT+0000 (UTC)
published: Wed Jun 14 2023 13:07:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト