カメラや写真を介してオブジェクトを操作する場合、ユーザーは特定の意図を持っていることがよくあります。たとえば、視覚的な検索を実行したい場合があります。ただし、ほとんどのオブジェクト検出モデルはユーザーの意図を無視し、唯一の入力として画像ピクセルに依存しています。これにより、対象のオブジェクトに対する信頼性の高い検出の欠如や、間違ったクラスラベルでの検出など、誤った結果が生じることがよくあります。このホワイトペーパーでは、単純なクエリの埋め込みとして表現される、ユーザーの意図を明示的に説明するために標準のオブジェクト検出器を変調する手法を調査します。標準のオブジェクト検出器と比較して、クエリ変調検出器は、特定の対象ラベルのオブジェクトを検出する際に優れたパフォーマンスを示します。標準のオブジェクト検出アノテーションから合成された大規模なトレーニングデータのおかげで、クエリ変調検出器は、特殊な参照式認識システムよりも優れたパフォーマンスを発揮します。さらに、クエリ変調検出と標準オブジェクト検出の両方を解決するように同時にトレーニングできます。
When interacting with objects through cameras, or pictures, users often have a specific intent. For example, they may want to perform a visual search. However, most object detection models ignore the user intent, relying on image pixels as their only input. This often leads to incorrect results, such as lack of a high-confidence detection on the object of interest, or detection with a wrong class label. In this paper we investigate techniques to modulate standard object detectors to explicitly account for the user intent, expressed as an embedding of a simple query. Compared to standard object detectors, query-modulated detectors show superior performance at detecting objects for a given label of interest. Thanks to large-scale training data synthesized from standard object detection annotations, query-modulated detectors can also outperform specialized referring expression recognition systems. Furthermore, they can be simultaneously trained to solve for both query-modulated detection and standard object detection.