完全にラベルのないデータから学習することは、人物の再識別やテキストの著者帰属などのマルチメディア フォレンジック問題では困難です。最近の自己教師あり学習手法は、クラス内の距離がクラス間の距離よりも大幅に小さいため、基になるクラスに重大な意味上の違いがある場合に、完全にラベルのないデータを処理する場合に効果的であることが示されています。ただし、これは、クラスが同様のセマンティクスを持ち、トレーニング セットとテスト セットが素の ID を持つフォレンジック アプリケーションには当てはまりません。一般的な自己教師あり学習方法では、このシナリオでは識別機能を学習できない可能性があるため、より堅牢な戦略が必要になります。私たちは、異なるクラスのサンプルが顕著に多様でない場合でも、ラベルのないデータからの学習を可能にすることで、人物の再識別とテキストの著者帰属に取り組む戦略を提案します。我々は、異なる構成から派生したクラスターを組み合わせて、完全に教師なしの方法でデータ サンプルのより適切なグループ化を生成する、新しいアンサンブル ベースのクラスタリング戦略を提案します。この戦略により、異なる密度と高い変動性を持つクラスターが出現し、データセットごとに最適な構成を見つける負担を必要とせずにクラス内の不一致が削減されます。また、特徴抽出とその後のサンプル間の距離計算のために、さまざまな畳み込みニューラル ネットワークを考慮します。コンテキストを組み込んでグループ化し、補完的な情報を取得することで、これらの距離を調整します。私たちの手法は、異なるデータモダリティを使用する両方のタスクにわたって堅牢であり、ラベル付けや人間の介入を一切行わない完全に教師なしのソリューションにより、最先端の手法を上回ります。
Learning from fully-unlabeled data is challenging in Multimedia Forensics problems, such as Person Re-Identification and Text Authorship Attribution. Recent self-supervised learning methods have shown to be effective when dealing with fully-unlabeled data in cases where the underlying classes have significant semantic differences, as intra-class distances are substantially lower than inter-class distances. However, this is not the case for forensic applications in which classes have similar semantics and the training and test sets have disjoint identities. General self-supervised learning methods might fail to learn discriminative features in this scenario, thus requiring more robust strategies. We propose a strategy to tackle Person Re-Identification and Text Authorship Attribution by enabling learning from unlabeled data even when samples from different classes are not prominently diverse. We propose a novel ensemble-based clustering strategy whereby clusters derived from different configurations are combined to generate a better grouping for the data samples in a fully-unsupervised way. This strategy allows clusters with different densities and higher variability to emerge, reducing intra-class discrepancies without requiring the burden of finding an optimal configuration per dataset. We also consider different Convolutional Neural Networks for feature extraction and subsequent distance computations between samples. We refine these distances by incorporating context and grouping them to capture complementary information. Our method is robust across both tasks, with different data modalities, and outperforms state-of-the-art methods with a fully-unsupervised solution without any labeling or human intervention.