ディープ ラーニングは、コンピューター ビジョンに目覚ましい進歩をもたらしました。それでも、今日の最高のモデルは、トレーニング中に見られるものとわずかに異なるバリエーションが提示されると脆くなります。オブジェクトのポーズ、色、または照明のわずかな変化が、壊滅的な誤分類につながる可能性があります。最先端のモデルは、一連のバリエーションがさまざまなオブジェクトにどのように影響するかを理解するのに苦労しています。オブジェクトがより現実的な設定でどのように変化するかという概念を浸透させるためのフレームワークを提案します。私たちのアプローチは、リー群の形式を適用して連続的な変換を捉え、分布シフトに対するモデルのロバスト性を向上させます。最先端の自己教師あり学習 (SSL) モデルの上にフレームワークを適用し、リー群を使用して変換を明示的にモデル化すると、典型的な例で見られる両方の既知のインスタンスで MAE のパフォーマンスが 10% を超える大幅な向上につながることがわかりました。ポーズは新しいポーズで表示されるようになり、任意のポーズの未知のインスタンスで表示されます。また、アプローチを ImageNet に適用すると、Lie 演算子によってパフォーマンスがほぼ 4% 向上することがわかります。これらの結果は、モデルのロバスト性を改善するための学習変換の可能性を示しています。
Deep learning has led to remarkable advances in computer vision. Even so, today's best models are brittle when presented with variations that differ even slightly from those seen during training. Minor shifts in the pose, color, or illumination of an object can lead to catastrophic misclassifications. State-of-the art models struggle to understand how a set of variations can affect different objects. We propose a framework for instilling a notion of how objects vary in more realistic settings. Our approach applies the formalism of Lie groups to capture continuous transformations to improve models' robustness to distributional shifts. We apply our framework on top of state-of-the-art self-supervised learning (SSL) models, finding that explicitly modeling transformations with Lie groups leads to substantial performance gains of greater than 10% for MAE on both known instances seen in typical poses now presented in new poses, and on unknown instances in any pose. We also apply our approach to ImageNet, finding that the Lie operator improves performance by almost 4%. These results demonstrate the promise of learning transformations to improve model robustness.