複数のオブジェクトインスタンスの検出を伴う画像再構成と分類の問題に対処するために訓練できる深いネットワークを提案します。ネットワークは、最も重要な上位Kパッチを抽出することを学習し、これらのパッチをタスク固有のネットワーク(自動エンコーダーまたは分類器など)に供給して、ドメイン固有の問題を解決します。このようなネットワークをトレーニングする際の課題は、微分不可能なトップK選択プロセスです。この問題に対処するために、トップK選択の結果をスラック変数として扱うことにより、トレーニングの最適化の問題を解消し、シンプルでありながら効果的なマルチステージトレーニングを実現します。私たちの方法は、画像を再構成することを学習することにより、トレーニングデータセット内の反復構造を検出することを学習できます。また、オブジェクトの発生に関する知識のみが提供される場合、構造をローカライズすることを学習できます。そうすることで、最新技術よりも優れています。
We propose a deep network that can be trained to tackle image reconstruction and classification problems that involve detection of multiple object instances, without any supervision regarding their whereabouts. The network learns to extract the most significant top-K patches, and feeds these patches to a task-specific network -- e.g., auto-encoder or classifier -- to solve a domain specific problem. The challenge in training such a network is the non-differentiable top-K selection process. To address this issue, we lift the training optimization problem by treating the result of top-K selection as a slack variable, resulting in a simple, yet effective, multi-stage training. Our method is able to learn to detect recurrent structures in the training dataset by learning to reconstruct images. It can also learn to localize structures when only knowledge on the occurrence of the object is provided, and in doing so it outperforms the state-of-the-art.