arXiv reaDer
きめの細かい視覚認識問題の自己教師あり表現を改善するための一般的な理論的根拠の学習
Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems
自己教師あり学習 (SSL) 戦略は、さまざまな認識タスクで顕著なパフォーマンスを示しています。ただし、予備調査と最近の研究の両方が、SSL 目標の最適化に役立つ多くの機能が FGVR の微妙な違いを特徴付けるのに適していないため、細粒度視覚認識 (FGVR) の表現を学習するのに効果的ではない可能性があることを示唆しています。この問題を克服するために、追加のスクリーニング メカニズムを学習して、インスタンスやクラス全体で一般的に見られる識別的な手がかりを特定することを提案します。直感的には、共通の理論的根拠は、前景オブジェクトの主要部分からの識別パターンに対応する傾向があります。事前にトレーニングされたオブジェクト部分や顕著性検出器を使用せずに、SSL 目的から誘導された GradCAM を利用するだけで、共通の論理的検出器を学習できることを示し、既存の SSL プロセスとシームレスに統合できることを示します。具体的には、フィッティング容量が制限されたブランチに GradCAM を適合させます。これにより、ブランチは一般的な理論的根拠を捉え、あまり一般的でない識別パターンを破棄できます。テスト段階で、ブランチは一連の空間ウェイトを生成して、インスタンスを表すフィーチャを選択的に集約します。 4 つの視覚タスクに関する広範な実験結果は、提案された方法がさまざまな評価設定で大幅な改善につながることを示しています。
Self-supervised learning (SSL) strategies have demonstrated remarkable performance in various recognition tasks. However, both our preliminary investigation and recent studies suggest that they may be less effective in learning representations for fine-grained visual recognition (FGVR) since many features helpful for optimizing SSL objectives are not suitable for characterizing the subtle differences in FGVR. To overcome this issue, we propose learning an additional screening mechanism to identify discriminative clues commonly seen across instances and classes, dubbed as common rationales in this paper. Intuitively, common rationales tend to correspond to the discriminative patterns from the key parts of foreground objects. We show that a common rationale detector can be learned by simply exploiting the GradCAM induced from the SSL objective without using any pre-trained object parts or saliency detectors, making it seamlessly to be integrated with the existing SSL process. Specifically, we fit the GradCAM with a branch with limited fitting capacity, which allows the branch to capture the common rationales and discard the less common discriminative patterns. At the test stage, the branch generates a set of spatial weights to selectively aggregate features representing an instance. Extensive experimental results on four visual tasks demonstrate that the proposed method can lead to a significant improvement in different evaluation settings.
updated: Fri Mar 03 2023 02:07:40 GMT+0000 (UTC)
published: Fri Mar 03 2023 02:07:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト