arXiv reaDer
Part-Guided Attention Learning for Vehicle Instance Retrieval
車両インスタンスの取得では、多くの場合、車両間のきめ細かい視覚的な違いを認識する必要があります。視点の変化や歪みの影響を受けやすい車両の全体的な外観に加えて、車両部品は、ほぼ同一の車両を区別するための重要な手がかりも提供します。これらの観察に動機付けられて、パーツガイドアテンションネットワーク(PGAN)を導入して、顕著なパーツ領域を特定し、グローバル情報とパーツ情報を効果的に組み合わせて、識別機能を学習します。 PGANは、車両のIDに関係なく、最初にさまざまなパーツコンポーネントと顕著な領域の位置を検出します。これは、可能な検索領域を絞り込むためのボトムアップの注意として機能します。検出されたパーツの重要性を推定するために、パーツアテンションモジュール(PAM)を提案して、注意の重みが高い最も識別力のある領域を適応的に特定し、ウェイトが比較的低い無関係なパーツの注意散漫を抑制します。 PAMはインスタンス検索損失によって導かれるため、トップダウンの注意を提供し、自動車部品やその他の顕著な領域のレベルで注意を計算できるようにします。最後に、グローバルな外観とパーツフィーチャを集約して、フィーチャのパフォーマンスをさらに向上させます。 PGANは、部分的にガイドされたボトムアップとトップダウンの注意、グローバルおよび部分的な視覚的機能をエンドツーエンドのフレームワークに組み合わせています。広範な実験は、提案された方法が4つの大規模ベンチマークデータセットで新しい最先端の車両インスタンス検索パフォーマンスを達成することを示しています。
Vehicle instance retrieval often requires one to recognize the fine-grained visual differences between vehicles. Besides the holistic appearance of vehicles which is easily affected by the viewpoint variation and distortion, vehicle parts also provide crucial cues to differentiate near-identical vehicles. Motivated by these observations, we introduce a Part-Guided Attention Network (PGAN) to pinpoint the prominent part regions and effectively combine the global and part information for discriminative feature learning. PGAN first detects the locations of different part components and salient regions regardless of the vehicle identity, which serve as the bottom-up attention to narrow down the possible searching regions. To estimate the importance of detected parts, we propose a Part Attention Module (PAM) to adaptively locate the most discriminative regions with high-attention weights and suppress the distraction of irrelevant parts with relatively low weights. The PAM is guided by the instance retrieval loss and therefore provides top-down attention that enables attention to be calculated at the level of car parts and other salient regions. Finally, we aggregate the global appearance and part features to improve the feature performance further. The PGAN combines part-guided bottom-up and top-down attention, global and part visual features in an end-to-end framework. Extensive experiments demonstrate that the proposed method achieves new state-of-the-art vehicle instance retrieval performance on four large-scale benchmark datasets.
updated: Sat Sep 26 2020 09:24:41 GMT+0000 (UTC)
published: Fri Sep 13 2019 03:58:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト