ビジュアルタスクにおけるディープラーニングの途方もない成功により、学習したモデルの中間層、つまりディープフィーチャから抽出された表現は、研究者の注目を集めています。以前の実証分析では、これらの機能に適切なセマンティック情報を含めることができることが示されています。したがって、大規模なベンチマークデータセット(ImageNetなど)でトレーニングされたモデルを使用すると、抽出された機能は他のタスクでうまく機能します。この研究では、この現象を調査し、経験的なリスクを最小限に抑えることで深い特徴が学習されるという事実により、深い特徴が最適ではない可能性があることを示します。ターゲットタスクのデータ分布がベンチマークデータセットのデータ分布と異なる場合、ディープフィーチャのパフォーマンスが低下する可能性があります。したがって、より一般的な機能を学習するための階層的に堅牢な最適化手法を提案します。例レベルと概念レベルのロバスト性を同時に考慮して、問題をWasserstein曖昧性セット制約を使用した分散ロバスト最適化問題として定式化し、従来のトレーニングパイプラインを使用した効率的なアルゴリズムを提案します。ベンチマークデータセットの実験は、ロバストで深い表現の有効性を示しています。
With the tremendous success of deep learning in visual tasks, the representations extracted from intermediate layers of learned models, that is, deep features, attract much attention of researchers. Previous empirical analysis shows that those features can contain appropriate semantic information. Therefore, with a model trained on a large-scale benchmark data set (e.g., ImageNet), the extracted features can work well on other tasks. In this work, we investigate this phenomenon and demonstrate that deep features can be suboptimal due to the fact that they are learned by minimizing the empirical risk. When the data distribution of the target task is different from that of the benchmark data set, the performance of deep features can degrade. Hence, we propose a hierarchically robust optimization method to learn more generic features. Considering the example-level and concept-level robustness simultaneously, we formulate the problem as a distributionally robust optimization problem with Wasserstein ambiguity set constraints, and an efficient algorithm with the conventional training pipeline is proposed. Experiments on benchmark data sets demonstrate the effectiveness of the robust deep representations.