arXiv reaDer
自然画像の誘導バイアスの接地:不変性はデータの変動に起因します
Grounding inductive biases in natural images:invariance stems from variations in data
目に見えない、潜在的に分布外のサンプルでうまく機能するために、機械学習モデルは、入力の変動の要因に影響を与える変換に関して予測可能な応答を持つことが望ましいです。ここでは、そのような予測可能な動作に対するいくつかのタイプの誘導バイアスの相対的な重要性を研究します:データの選択、それらの拡張、およびモデルアーキテクチャ。不変性は通常、手作業によるデータ拡張によって実現されますが、標準のデータ拡張は、実際のデータの変動を説明する変換に対応していますか?以前の作業は合成データに焦点を当てていましたが、ここでは、実際のデータセットImageNetの変動要因を特徴付け、これらの要因の変化に関して、標準の残余ネットワークと最近提案されたビジョントランスフォーマーの両方の不変性を調査します。標準的な拡張は、変換とスケールの正確な組み合わせに依存し、変換は、残差ネットワークなどの畳み込みアーキテクチャに組み込まれている(おおよその)変換の不変性にもかかわらず、パフォーマンスの向上のほとんどを取り戻します。実際、スケールと並進の不変性は、アーキテクチャの誘導バイアスが著しく異なるにもかかわらず、残余ネットワークとビジョントランスフォーマーモデル間で類似していることがわかりました。トレーニングデータ自体が不変性の主な原因であり、データの増強は学習された不変性をさらに増加させるだけであることを示します。特に、トレーニング中に学習された不変性は、私たちが見つけたImageNetの変動要因と一致しています。最後に、ImageNetの変動の主な要因は主に外観に関連しており、各クラスに固有であることがわかります。
To perform well on unseen and potentially out-of-distribution samples, it is desirable for machine learning models to have a predictable response with respect to transformations affecting the factors of variation of the input. Here, we study the relative importance of several types of inductive biases towards such predictable behavior: the choice of data, their augmentations, and model architectures. Invariance is commonly achieved through hand-engineered data augmentation, but do standard data augmentations address transformations that explain variations in real data? While prior work has focused on synthetic data, we attempt here to characterize the factors of variation in a real dataset, ImageNet, and study the invariance of both standard residual networks and the recently proposed vision transformer with respect to changes in these factors. We show standard augmentation relies on a precise combination of translation and scale, with translation recapturing most of the performance improvement -- despite the (approximate) translation invariance built in to convolutional architectures, such as residual networks. In fact, we found that scale and translation invariance was similar across residual networks and vision transformer models despite their markedly different architectural inductive biases. We show the training data itself is the main source of invariance, and that data augmentation only further increases the learned invariances. Notably, the invariances learned during training align with the ImageNet factors of variation we found. Finally, we find that the main factors of variation in ImageNet mostly relate to appearance and are specific to each class.
updated: Tue Nov 16 2021 12:21:33 GMT+0000 (UTC)
published: Wed Jun 09 2021 14:58:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト