ディープコンボリューショナルニューラルネットワーク(DCNN)は、オブジェクト分類で印象的な結果をもたらす強力なモデルです。ただし、最近の研究では、部分的に遮蔽されたオブジェクトや攻撃を隠すために一般化されていないことが示されています。 DCNNとは対照的に、組成モデルは部分オクルージョンに対してロバストですが、ディープモデルほど識別的ではありません。この作業では、DCNNと合成オブジェクトモデルを組み合わせて、両方のアプローチの最良の部分である部分オクルージョンおよびマスク攻撃に強い識別モデルを保持します。モデルは2つのステップで学習されます。最初に、標準DCNNが画像分類のためにトレーニングされます。その後、DCNN機能を辞書にクラスター化します。辞書コンポーネントがオブジェクトパーツ検出器に似ていることを示し、各オブジェクトクラスのパーツの空間分布を学習します。空間活性化パターンの大きな変化(たとえば、オブジェクトの3Dポーズの変化による)を説明するために、組成モデルの混合を提案します。実行時に、画像は最初にDCNNによってフィードフォワード方式で分類されます。予測不確実性は、部分的に遮蔽されたオブジェクトを検出するために使用され、オブジェクトは組成モデルによって分類されます。実験結果は、合成モデルとDCNNを組み合わせることで、コンピュータービジョンに対する現在のディープラーニングアプローチの基本的な問題を解決できることを示しています。結合モデルは、トレーニング中に遮蔽されたオブジェクトにさらされていない場合でも、遮蔽されたオブジェクトを認識し、同時に高い状態を維持しますオクルージョンされていないオブジェクトの識別パフォーマンス。
Deep convolutional neural networks (DCNNs) are powerful models that yield impressive results at object classification. However, recent work has shown that they do not generalize well to partially occluded objects and to mask attacks. In contrast to DCNNs, compositional models are robust to partial occlusion, however, they are not as discriminative as deep models. In this work, we combine DCNNs and compositional object models to retain the best of both approaches: a discriminative model that is robust to partial occlusion and mask attacks. Our model is learned in two steps. First, a standard DCNN is trained for image classification. Subsequently, we cluster the DCNN features into dictionaries. We show that the dictionary components resemble object part detectors and learn the spatial distribution of parts for each object class. We propose mixtures of compositional models to account for large changes in the spatial activation patterns (e.g. due to changes in the 3D pose of an object). At runtime, an image is first classified by the DCNN in a feedforward manner. The prediction uncertainty is used to detect partially occluded objects, which in turn are classified by the compositional model. Our experimental results demonstrate that combining compositional models and DCNNs resolves a fundamental problem of current deep learning approaches to computer vision: The combined model recognizes occluded objects, even when it has not been exposed to occluded objects during training, while at the same time maintaining high discriminative performance for non-occluded objects.