パフォーマンスを大幅に低下させることなく、ビジョントランスフォーマーにトークン整合性のある確率的レイヤーを導入します。追加された確率論は、ネットワークのキャリブレーション、堅牢性を改善し、プライバシーを強化します。トランスフォーマーのアーキテクチャを変更することなく、多層パーセプトロンブロック内でトークン整合性のある確率的パラメーターを持つ線形レイヤーを使用します。確率的パラメーターは、トレーニング中と推論中の両方で、一様分布からサンプリングされます。適用された線形演算は、共有多層パーセプトロンを通過するトークンのセットによって形成されるトポロジ構造を保持します。この操作は、トークンの値ではなく、トークンのトポロジー構造に依存する認識タスクの学習を促進します。これにより、視覚的機能の望ましい堅牢性とプライバシーが提供されます。トークン整合性のある確率論の有効性は、それぞれの確立されたベースラインのパフォーマンスを向上させることにより、3つの異なるアプリケーション、つまり、ネットワークキャリブレーション、敵対的堅牢性、および機能プライバシーで実証されます。
We introduce token-consistent stochastic layers in vision transformers, without causing any severe drop in performance. The added stochasticity improves network calibration, robustness and strengthens privacy. We use linear layers with token-consistent stochastic parameters inside the multilayer perceptron blocks, without altering the architecture of the transformer. The stochastic parameters are sampled from the uniform distribution, both during training and inference. The applied linear operations preserve the topological structure, formed by the set of tokens passing through the shared multilayer perceptron. This operation encourages the learning of the recognition task to rely on the topological structures of the tokens, instead of their values, which in turn offers the desired robustness and privacy of the visual features. The effectiveness of the token-consistent stochasticity is demonstrated on three different applications, namely, network calibration, adversarial robustness, and feature privacy, by boosting the performance of the respective established baselines.