ディープニューラルネットワーク(DNN)がビジョン関連のタスクで顕著な成功を収めているにもかかわらず、そのパフォーマンスは入力の変換に対して脆弱です。特に興味深いのは、回転、並進、照明やカメラのポーズの変化など、物理的な世界での基礎を持つ変化をモデル化するセマンティック変換です。このホワイトペーパーでは、DNNのパフォーマンスを分析し、データ拡張によってその堅牢性を向上させるために、有益でありながら現実的な画像を生成するために、微分可能なレンダリングをどのように利用できるかを示します。差別化可能なレンダラーとDNNを前提として、敵対的な機械学習からの既製の攻撃を使用してセマンティックの反例(誤分類または誤検出を生成するためにセマンティック機能が変更された画像)を生成する方法を示します。画像分類とオブジェクト検出のためのDNNに対するアプローチを検証します。分類については、データセットを拡張するために使用すると、意味論的な反例、(i)汎化パフォーマンスの向上、(ii)意味論的変換のロバスト性の強化、および(iii)モデル間の転送を示します。さらに、サンプリングベースのセマンティック拡張と比較して、私たちの手法は、サンプルの効率的な方法でより有益なデータを生成します。
Even as deep neural networks (DNNs) have achieved remarkable success on vision-related tasks, their performance is brittle to transformations in the input. Of particular interest are semantic transformations that model changes that have a basis in the physical world, such as rotations, translations, changes in lighting or camera pose. In this paper, we show how differentiable rendering can be utilized to generate images that are informative, yet realistic, and which can be used to analyze DNN performance and improve its robustness through data augmentation. Given a differentiable renderer and a DNN, we show how to use off-the-shelf attacks from adversarial machine learning to generate semantic counterexamples -- images where semantic features are changed as to produce misclassifications or misdetections. We validate our approach on DNNs for image classification and object detection. For classification, we show that semantic counterexamples, when used to augment the dataset, (i) improve generalization performance (ii) enhance robustness to semantic transformations, and (iii) transfer between models. Additionally, in comparison to sampling-based semantic augmentation, our technique generates more informative data in a sample efficient manner.