合成畳み込みネットワークは、ニューラルネットワーク機能の生成的合成モデルであり、部分的に遮蔽されたオブジェクトを分類するときに、トレーニング中に遮蔽オブジェクトにさらされていない場合でも、最先端の結果を達成します。この作業では、画像内のオクルーダーのローカライズにおけるCompositionalNetのパフォーマンスを調べます。元のモデルではオクルーダーを適切にローカライズできないことがわかります。フィーチャーアクティベーションをvon-Mises-Fisher分布の混合としてモデル化することにより、この制限を克服することを提案します。これにより、CompositionalNetのエンドツーエンドのトレーニングも可能になります。私たちの実験結果は、提案された拡張機能が、部分的に遮蔽されたオブジェクトを分類するだけでなく、遮蔽物のローカライズでモデルのパフォーマンスを向上させることを示しています。
Compositional convolutional networks are generative compositional models of neural network features, that achieve state of the art results when classifying partially occluded objects, even when they have not been exposed to occluded objects during training. In this work, we study the performance of CompositionalNets at localizing occluders in images. We show that the original model is not able to localize occluders well. We propose to overcome this limitation by modeling the feature activations as a mixture of von-Mises-Fisher distributions, which also allows for an end-to-end training of CompositionalNets. Our experimental results demonstrate that the proposed extensions increase the model's performance at localizing occluders as well as at classifying partially occluded objects.