オブジェクトの検出とセグメンテーションの方法では、多くの場合、トレーニングのために大量のインスタンス レベルの注釈が必要になります。これは、収集に時間と費用がかかります。これに対処するために、ゼロ ショット オブジェクト検出 (またはセグメンテーション) のタスクは、監視が利用できないカテゴリのオブジェクト インスタンスを識別およびローカライズするための効果的な方法を学習することを目的としています。これらのタスクのアーキテクチャを構築するには、無数の設計オプションから選択する必要があります。これには、可視カテゴリから不可視カテゴリに情報を転送するために使用されるクラス エンコーディングの形式から、学習用に最適化される関数の性質まで多岐にわたります。この作業では、これらの設計上の選択を広く研究し、シンプルでありながら非常に効果的なゼロショット認識方法を慎重に構築します。オブジェクトの検出とセグメンテーションに関するMSCOCOデータセットの広範な実験を通じて、提案された方法が既存のかなり複雑なアーキテクチャよりも優れていることを強調します。競争力のある将来のベースラインとして提案する調査結果と方法は、ゼロショット検出/セグメンテーションにおける最近の設計トレンドのいくつかを再検討する必要があることを示しています。
Methods for object detection and segmentation often require abundant instance-level annotations for training, which are time-consuming and expensive to collect. To address this, the task of zero-shot object detection (or segmentation) aims at learning effective methods for identifying and localizing object instances for the categories that have no supervision available. Constructing architectures for these tasks requires choosing from a myriad of design options, ranging from the form of the class encoding used to transfer information from seen to unseen categories, to the nature of the function being optimized for learning. In this work, we extensively study these design choices, and carefully construct a simple yet extremely effective zero-shot recognition method. Through extensive experiments on the MSCOCO dataset on object detection and segmentation, we highlight that our proposed method outperforms existing, considerably more complex, architectures. Our findings and method, which we propose as a competitive future baseline, point towards the need to revisit some of the recent design trends in zero-shot detection / segmentation.