確率的二分法アルゴリズムに基づく新しい効率的なオブジェクト検出およびローカリゼーションフレームワークを提示します。畳み込みニューラルネットワーク(CNN)は、入力クエリイメージへの回答を提供するノイズの多いオラクルとしてトレーニングおよび使用されます。 CNNから取得されたエラー確率推定値と応答は、各次元に沿ったオブジェクトの位置に関する信念を更新するために使用されます。各ディメンションに沿ってクエリを実行すると、ローカライズエラーの下限が共同クエリ設計と同じになることがわかります。最後に、現実世界の顔のローカリゼーションタスクでの従来のスライディングウィンドウテクニックに対するアプローチを比較し、正確なローカリゼーションを維持しながら少なくとも1桁の速度改善を示します。
We present a novel efficient object detection and localization framework based on the probabilistic bisection algorithm. A Convolutional Neural Network (CNN) is trained and used as a noisy oracle that provides answers to input query images. The responses along with error probability estimates obtained from the CNN are used to update beliefs on the object location along each dimension. We show that querying along each dimension achieves the same lower bound on localization error as the joint query design. Finally, we compare our approach to the traditional sliding window technique on a real world face localization task and show speed improvements by at least an order of magnitude while maintaining accurate localization.