OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
分類、ローカリゼーション、および検出に畳み込みネットワークを使用するための統合フレームワークを提示します。 ConvNet内でマルチスケールおよびスライディングウィンドウアプローチを効率的に実装する方法を示します。また、オブジェクトの境界を予測することを学習することにより、ローカリゼーションへの新しいディープラーニングアプローチを紹介します。検出の信頼性を高めるために、境界ボックスは抑制されずに蓄積されます。単一の共有ネットワークを使用して、さまざまなタスクを同時に学習できることを示します。この統合フレームワークは、ImageNet Large Scale Visual Recognition Challenge 2013(ILSVRC2013)のローカリゼーションタスクの勝者であり、検出および分類タスクで非常に競争力のある結果を得ました。競争後の作業では、検出タスクの最新技術を確立します。最後に、OverFeatと呼ばれる最高のモデルから機能抽出ツールをリリースします。
We present an integrated framework for using Convolutional Networks for classification, localization and detection. We show how a multiscale and sliding window approach can be efficiently implemented within a ConvNet. We also introduce a novel deep learning approach to localization by learning to predict object boundaries. Bounding boxes are then accumulated rather than suppressed in order to increase detection confidence. We show that different tasks can be learned simultaneously using a single shared network. This integrated framework is the winner of the localization task of the ImageNet Large Scale Visual Recognition Challenge 2013 (ILSVRC2013) and obtained very competitive results for the detection and classifications tasks. In post-competition work, we establish a new state of the art for the detection task. Finally, we release a feature extractor from our best model called OverFeat.
updated: Mon Feb 24 2014 03:38:17 GMT+0000 (UTC)
published: Sat Dec 21 2013 09:52:33 GMT+0000 (UTC)
