取得および共有テクノロジの著しい進歩により、マルチメディア コレクションとそのアプリケーションはほぼ無制限に増加しています。ただし、このようなデータは取得に費用と時間がかかることが多いため、教師ありトレーニングに必要なラベル付きデータの可用性については逆です。効果的な検索および分類方法の開発が急務ですが、教師ありアプローチが直面する困難は、ラベル付けされたデータがほとんどまたはまったくなくても機能する方法の関連性を浮き彫りにします。この作業では、教師なしおよび半教師ありのシナリオ向けに、Rank Flow Embedding (RFE) という名前の新しい多様体学習アルゴリズムを提案します。提案された方法は、ハイパーグラフ、デカルト積、連結成分を含むマニホールド学習アプローチによって最近利用されたアイデアに基づいています。このアルゴリズムは、コンテキスト依存の埋め込みを計算します。これは、ランクベースの処理フローに従って洗練され、補完的なコンテキスト情報が組み込まれます。生成された埋め込みは、より効果的な教師なし検索またはグラフ畳み込みネットワークに基づく半教師付き分類に利用できます。実験結果は、10 の異なるコレクションで実施されました。最近の畳み込みニューラル ネットワーク (CNN) やビジョン トランスフォーマー (ViT) モデルで得られたものを含め、さまざまな機能が考慮されました。高い効果的な結果は、さまざまなタスク (教師なし画像検索、半教師付き分類、人物の再識別) に対する提案された方法の有効性を示しています。結果は、RFE がさまざまな評価されたシナリオで最新技術よりも競争力があるか、または優れていることを示しています。
Impressive advances in acquisition and sharing technologies have made the growth of multimedia collections and their applications almost unlimited. However, the opposite is true for the availability of labeled data, which is needed for supervised training, since such data is often expensive and time-consuming to obtain. While there is a pressing need for the development of effective retrieval and classification methods, the difficulties faced by supervised approaches highlight the relevance of methods capable of operating with few or no labeled data. In this work, we propose a novel manifold learning algorithm named Rank Flow Embedding (RFE) for unsupervised and semi-supervised scenarios. The proposed method is based on ideas recently exploited by manifold learning approaches, which include hypergraphs, Cartesian products, and connected components. The algorithm computes context-sensitive embeddings, which are refined following a rank-based processing flow, while complementary contextual information is incorporated. The generated embeddings can be exploited for more effective unsupervised retrieval or semi-supervised classification based on Graph Convolutional Networks. Experimental results were conducted on 10 different collections. Various features were considered, including the ones obtained with recent Convolutional Neural Networks (CNN) and Vision Transformer (ViT) models. High effective results demonstrate the effectiveness of the proposed method on different tasks: unsupervised image retrieval, semi-supervised classification, and person Re-ID. The results demonstrate that RFE is competitive or superior to the state-of-the-art in diverse evaluated scenarios.