arXiv reaDer
テキストから画像への人物再識別のためのノイズ対応学習
Noisy-Correspondence Learning for Text-to-Image Person Re-identification
Text-to-Image person re-identification (TIReID) は、テキスト クエリに基づいて対象人物を取得することを目的とした、クロスモーダル コミュニティにおける魅力的なトピックです。数多くの TIReID 手法が提案され、有望なパフォーマンスを達成していますが、それらはトレーニング画像とテキストのペアが正しく位置合わせされていることを暗黙的に前提としていますが、現実世界のシナリオでは必ずしもそうであるとは限りません。実際には、画像とテキストのペアは、低品質の画像と注釈エラーにより、必然的に相関が不十分、または誤った相関、別名ノイズの多い対応 (NC) が存在します。この問題に対処するために、我々は、NC であっても堅牢な視覚と意味の関連性を学習できる新しいロバスト デュアル エンベディング法 (RDE) を提案します。具体的には、RDE は 2 つの主要コンポーネントで構成されます。 1) Confident Consensus Division (CCD) モジュール。デュアル エンベディング モジュールの二元的決定を活用して、クリーンなトレーニング データのコンセンサス セットを取得します。これにより、モデルは正確で信頼性の高いビジュアルを学習できます。 - 意味的な関連付け。 2) トリプレット アライメント ロス (TAL) は、NC を急速にオーバーフィットさせる傾向がある、最もハードなネガでの従来のトリプレット ランキング ロスを、すべてのネガで対数指数関数的な上限まで緩和し、モデルが偽の画像とテキストのペアを過度に強調するのを防ぎます。 。当社では、CUHK-PEDES、ICFG-PEDES、RSTPReID という 3 つの公開ベンチマークで広範な実験を実施し、RDE のパフォーマンスと堅牢性を評価しています。私たちの方法では、3 つのデータセットすべてで合成ノイズ対応の有無にかかわらず、最先端の結果が得られます。
Text-to-image person re-identification (TIReID) is a compelling topic in the cross-modal community, which aims to retrieve the target person based on a textual query. Although numerous TIReID methods have been proposed and achieved promising performance, they implicitly assume the training image-text pairs are correctly aligned, which is not always the case in real-world scenarios. In practice, the image-text pairs inevitably exist under-correlated or even false-correlated, a.k.a noisy correspondence (NC), due to the low quality of the images and annotation errors. To address this problem, we propose a novel Robust Dual Embedding method (RDE) that can learn robust visual-semantic associations even with NC. Specifically, RDE consists of two main components: 1) A Confident Consensus Division (CCD) module that leverages the dual-grained decisions of dual embedding modules to obtain a consensus set of clean training data, which enables the model to learn correct and reliable visual-semantic associations. 2) A Triplet-Alignment Loss (TAL) relaxes the conventional triplet-ranking loss with hardest negatives, which tends to rapidly overfit NC, to a log-exponential upper bound over all negatives, thus preventing the model from overemphasizing false image-text pairs. We conduct extensive experiments on three public benchmarks, namely CUHK-PEDES, ICFG-PEDES, and RSTPReID, to evaluate the performance and robustness of our RDE. Our method achieves state-of-the-art results both with and without synthetic noisy correspondences on all three datasets.
updated: Sat Aug 19 2023 05:34:13 GMT+0000 (UTC)
published: Sat Aug 19 2023 05:34:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト