BatchNormは、現代の畳み込みニューラルネットワークの重要な構成要素です。個々のサンプルの代わりに「バッチ」を操作するという独自の特性により、深層学習における他のほとんどの操作とは大幅に異なる動作が導入されます。その結果、モデルのパフォーマンスに微妙な悪影響を与える可能性のある多くの隠れた警告が発生します。このホワイトペーパーでは、視覚認識タスクにおけるこのような問題を徹底的にレビューし、それらに対処するための鍵は、BatchNormの「バッチ」の概念におけるさまざまな選択を再考することであることを示しています。これらの警告とその緩和策を提示することにより、このレビューが研究者がBatchNormをより効果的に使用するのに役立つことを願っています。
BatchNorm is a critical building block in modern convolutional neural networks. Its unique property of operating on "batches" instead of individual samples introduces significantly different behaviors from most other operations in deep learning. As a result, it leads to many hidden caveats that can negatively impact model's performance in subtle ways. This paper thoroughly reviews such problems in visual recognition tasks, and shows that a key to address them is to rethink different choices in the concept of "batch" in BatchNorm. By presenting these caveats and their mitigations, we hope this review can help researchers use BatchNorm more effectively.