リソースが制限されたデバイスの大群の出現は、精度と計算要件の間の明確な妥協点を備えたコンピュータービジョンアルゴリズムの設計に新たな課題をもたらします。この論文では、トリプレットランキング損失、ハードネガティブマイニング、およびピクセルの違いと画像勾配に基づく従来の機能へのアンカースワッピングの適用から生まれた新しいバイナリ画像記述子を紹介します。これらの記述子、BAD(ボックス平均差)およびHashSIFTは、最先端の精度とリソースのトレードオフ曲線に新しい動作点を確立します。私たちの実験では、提案された記述子の精度、実行時間、およびエネルギー消費を評価します。 BADは文献で最速の記述子実装を備えているのに対し、HashSIFTはトップディープラーニングベースの記述子の精度に近づき、計算効率が高いことを示しています。ソースコードを公開しました。
The advent of a panoply of resource limited devices opens up new challenges in the design of computer vision algorithms with a clear compromise between accuracy and computational requirements. In this paper we present new binary image descriptors that emerge from the application of triplet ranking loss, hard negative mining and anchor swapping to traditional features based on pixel differences and image gradients. These descriptors, BAD (Box Average Difference) and HashSIFT, establish new operating points in the state-of-the-art's accuracy vs.\ resources trade-off curve. In our experiments we evaluate the accuracy, execution time and energy consumption of the proposed descriptors. We show that BAD bears the fastest descriptor implementation in the literature while HashSIFT approaches in accuracy that of the top deep learning-based descriptors, being computationally more efficient. We have made the source code public.