ハッシュは、ストレージコストが低く、クエリ速度が速いため、最近、クロスモーダル検索で大きな革命を起こしました。最近のクロスモーダルハッシュ手法では、マルチモーダルデータを表すために統一されたまたは等しい長さのハッシュコードを学習し、直感的に比較できるようにすることがよくあります。ただし、さまざまなモダリティからのデータは1対1の対応を持たない可能性があり、異なる長さの異なるハッシュコードによってより効率的にエンコードできるため、このような統一または等しい長さのハッシュ表現は本質的に表現のスケーラビリティを犠牲にする可能性があります。これらの問題を軽減するために、このペーパーでは、関連する比較的未開拓の問題を利用します。さまざまなハッシュ長で異種データをエンコードし、さまざまな困難なシナリオでクロスモーダル検索を一般化します。このために、Matrix Tri-Factorization Hashing(MTFH)と呼ばれる一般化された柔軟なクロスモーダルハッシュフレームワークが提案されており、ペアまたは非ペアのマルチモーダルデータ、および等しいまたは可変のハッシュ長エンコードシナリオを含むさまざまな設定でシームレスに動作します。より具体的には、MTFHは効率的な目的関数を活用して、長さの設定が異なるモダリティ固有のハッシュコードを柔軟に学習すると同時に、2つのセマンティック相関行列を同期学習して、比較可能な異種データの異なるハッシュ表現を意味的に相関させます。結果として、派生ハッシュコードは、さまざまな困難なクロスモーダル検索タスクにとって意味的に意味があります。公開ベンチマークデータセットで評価された広範な実験により、さまざまな検索シナリオでのMTFHの優位性が強調され、最新技術との競争力のあるパフォーマンスが示されています。
Hashing has recently sparked a great revolution in cross-modal retrieval because of its low storage cost and high query speed. Recent cross-modal hashing methods often learn unified or equal-length hash codes to represent the multi-modal data and make them intuitively comparable. However, such unified or equal-length hash representations could inherently sacrifice their representation scalability because the data from different modalities may not have one-to-one correspondence and could be encoded more efficiently by different hash codes of unequal lengths. To mitigate these problems, this paper exploits a related and relatively unexplored problem: encode the heterogeneous data with varying hash lengths and generalize the cross-modal retrieval in various challenging scenarios. To this end, a generalized and flexible cross-modal hashing framework, termed Matrix Tri-Factorization Hashing (MTFH), is proposed to work seamlessly in various settings including paired or unpaired multi-modal data, and equal or varying hash length encoding scenarios. More specifically, MTFH exploits an efficient objective function to flexibly learn the modality-specific hash codes with different length settings, while synchronously learning two semantic correlation matrices to semantically correlate the different hash representations for heterogeneous data comparable. As a result, the derived hash codes are more semantically meaningful for various challenging cross-modal retrieval tasks. Extensive experiments evaluated on public benchmark datasets highlight the superiority of MTFH under various retrieval scenarios and show its competitive performance with the state-of-the-arts.