arXiv reaDer
OMG:自然言語ベースの車両検索のために複数の粒度を観察する
OMG: Observe Multiple Granularities for Natural Language-Based Vehicle Retrieval
自然言語の説明によって追跡車両を取得することは、スマートシティの構築において重要な役割を果たします。これは、監視ビデオで追跡された車両のセットから、指定されたテキストに最適なものを見つけることを目的としています。既存の作品は、一般的に、テキストエンコーダー、ビジュアルエンコーダー、およびクロスモーダル損失関数で構成されるデュアルストリームフレームワークによってそれを解決します。ある程度の進歩はありましたが、さまざまなレベルの粒度で情報を十分に活用できませんでした。この問題に取り組むために、自然言語ベースの車両検索タスクであるOMGの新しいフレームワークを提案します。これは、視覚的表現、テキスト表現、および目的関数に関して複数の粒状性を観察します。視覚的表現の場合、ターゲット機能、コンテキスト機能、およびモーション機能は別々にエンコードされます。テキスト表現では、1つのグローバル埋め込み、3つのローカル埋め込み、およびカラータイプのプロンプト埋め込みが抽出され、セマンティック機能のさまざまな粒度を表します。最後に、全体的なフレームワークは、クロスモーダルマルチグラニュラリティ対照損失関数によって最適化されます。実験は、私たちの方法の有効性を示しています。私たちのOMGは、これまでのすべての方法を大幅に上回り、6番目のAI CityChallengeTrack2で9位にランクされています。コードはhttps://github.com/dyhBUPT/OMGで入手できます。
Retrieving tracked-vehicles by natural language descriptions plays a critical role in smart city construction. It aims to find the best match for the given texts from a set of tracked vehicles in surveillance videos. Existing works generally solve it by a dual-stream framework, which consists of a text encoder, a visual encoder and a cross-modal loss function. Although some progress has been made, they failed to fully exploit the information at various levels of granularity. To tackle this issue, we propose a novel framework for the natural language-based vehicle retrieval task, OMG, which Observes Multiple Granularities with respect to visual representation, textual representation and objective functions. For the visual representation, target features, context features and motion features are encoded separately. For the textual representation, one global embedding, three local embeddings and a color-type prompt embedding are extracted to represent various granularities of semantic features. Finally, the overall framework is optimized by a cross-modal multi-granularity contrastive loss function. Experiments demonstrate the effectiveness of our method. Our OMG significantly outperforms all previous methods and ranks the 9th on the 6th AI City Challenge Track2. The codes are available at https://github.com/dyhBUPT/OMG.
updated: Sun May 08 2022 13:56:47 GMT+0000 (UTC)
published: Mon Apr 18 2022 08:15:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト