数十億規模のデータセットで同様のベクトルを高速に取得するための最新のアプローチは、バイナリスケッチや製品の量子化などの圧縮ドメインアプローチに依存しています。これらの方法は、特定の損失、通常は平均二乗誤差または検索問題に合わせた他の目的関数を最小限に抑えます。この論文では、バイナリハッシュや製品量子化器などの一般的な方法をオートエンコーダーとして再解釈し、デコーダーの形式で暗黙的に次善の仮定を行うことを指摘します。同じコードからのベクトルの再構築を改善する下位互換性のあるデコーダーを設計します。これにより、最近傍探索のパフォーマンスが向上します。私たちの方法は、一般的なベンチマークでのバイナリハッシュ方法や製品の量子化よりも大幅に改善されています。
Modern approaches for fast retrieval of similar vectors on billion-scaled datasets rely on compressed-domain approaches such as binary sketches or product quantization. These methods minimize a certain loss, typically the mean squared error or other objective functions tailored to the retrieval problem. In this paper, we re-interpret popular methods such as binary hashing or product quantizers as auto-encoders, and point out that they implicitly make suboptimal assumptions on the form of the decoder. We design backward-compatible decoders that improve the reconstruction of the vectors from the same codes, which translates to a better performance in nearest neighbor search. Our method significantly improves over binary hashing methods or product quantization on popular benchmarks.