コンピューター ビジョン タスクにおけるディープ ラーニングの大きな成功にもかかわらず、クロスドメイン タスクには、トレーニング セットとテスト セットが異なる分布に従うとモデルのパフォーマンスが低下するという課題が依然として存在します。ほとんどの既存の方法は、このタスクを解決するためにデータ拡張を達成するために、敵対的学習またはインスタンス正規化を採用しています。対照的に、バッチ正規化 (BN) レイヤーは目に見えないドメインに対して堅牢ではない可能性があり、画像のローカル パッチ間に違いが存在することを考慮して、パッチ対応バッチ正規化 (PBN) と呼ばれる新しい方法を提案します。具体的には、最初にバッチの特徴マップを空間次元に沿って重複しないパッチに分割し、次に各パッチを個別に正規化して、反復ごとに共有 BN パラメーターを共同で最適化します。画像のローカル パッチ間の違いを利用することにより、提案された PBN は、モデルのパラメーターのロバスト性を効果的に強化できます。さらに、各パッチからの統計は、グローバル機能マップと比較してサイズが小さいために不正確になる可能性があることを考慮して、グローバルに蓄積された統計を各バッチからの統計と組み合わせて、各パッチを正規化するための最終統計を取得します。提案された PBN は一般的な BN を置き換えることができるため、ほとんどの既存の最先端の方法に統合できます。広範な実験と分析により、分類、オブジェクト検出、インスタンス検索、セマンティック セグメンテーションなど、複数のコンピューター ビジョン タスクにおける PBN の有効性が実証されています。
Despite the significant success of deep learning in computer vision tasks, cross-domain tasks still present a challenge in which the model's performance will degrade when the training set and the test set follow different distributions. Most existing methods employ adversarial learning or instance normalization for achieving data augmentation to solve this task. In contrast, considering that the batch normalization (BN) layer may not be robust for unseen domains and there exist the differences between local patches of an image, we propose a novel method called patch-aware batch normalization (PBN). To be specific, we first split feature maps of a batch into non-overlapping patches along the spatial dimension, and then independently normalize each patch to jointly optimize the shared BN parameter at each iteration. By exploiting the differences between local patches of an image, our proposed PBN can effectively enhance the robustness of the model's parameters. Besides, considering the statistics from each patch may be inaccurate due to their smaller size compared to the global feature maps, we incorporate the globally accumulated statistics with the statistics from each batch to obtain the final statistics for normalizing each patch. Since the proposed PBN can replace the typical BN, it can be integrated into most existing state-of-the-art methods. Extensive experiments and analysis demonstrate the effectiveness of our PBN in multiple computer vision tasks, including classification, object detection, instance retrieval, and semantic segmentation.