人間は視覚的なセマンティクスを無限の粒度で認識する能力を持っていますが、既存の視覚認識アルゴリズムではこの目標を達成できません。この論文では、ギャップを埋めるために、リクエストによる視覚認識(ViRReq)という新しいパラダイムを確立します。重要なのは、視覚認識を要求という名前のアトミック タスクに分解し、ナレッジ ベース (階層的でテキスト ベースの辞書) を活用してタスク定義を支援することにあります。 ViRReq を使用すると、(i) 非常に不完全な注釈から複雑な全体階層を学習し、(ii) 最小限の労力で新しい概念を挿入できます。また、言語駆動型認識を最近のセマンティックおよびインスタンス セグメンテーション メソッドに統合することにより、強固なベースラインを確立し、CPP および ADE20K、階層的な全体の注釈を含む 2 つのデータセットで柔軟な認識能力を実証します。
Humans have the ability of recognizing visual semantics in an unlimited granularity, but existing visual recognition algorithms cannot achieve this goal. In this paper, we establish a new paradigm named visual recognition by request (ViRReq) to bridge the gap. The key lies in decomposing visual recognition into atomic tasks named requests and leveraging a knowledge base, a hierarchical and text-based dictionary, to assist task definition. ViRReq allows for (i) learning complicated whole-part hierarchies from highly incomplete annotations and (ii) inserting new concepts with minimal efforts. We also establish a solid baseline by integrating language-driven recognition into recent semantic and instance segmentation methods, and demonstrate its flexible recognition ability on CPP and ADE20K, two datasets with hierarchical whole-part annotations.