Efficient Deep Feature Calibration for Cross-Modal Joint Embedding Learning
この論文では、セマンティクスが強化されたテキスト画像クロスモーダルジョイント埋め込みを効率的に学習するための2フェーズのディープフィーチャキャリブレーションフレームワークを紹介します。これにより、データ前処理でのディープフィーチャキャリブレーションとジョイント埋め込みモデルのトレーニングが明確に分離されます。技術的な説明と経験的な検証には、Recipe1Mデータセットを使用します。前処理では、深層特徴エンジニアリングと生のテキスト画像入力データから派生したセマンティックコンテキスト特徴を組み合わせることにより、深層特徴キャリブレーションを実行します。 LSTMを活用して重要な用語を特定し、NLPメソッドを利用して重要な用語のランキングスコアを生成してから、重要な用語の機能を生成します。 wideResNet50を活用して、画像カテゴリのセマンティクスを抽出およびエンコードし、学習したレシピと共同潜在空間への画像埋め込みのセマンティックアラインメントを支援します。共同埋め込み学習では、ソフトマージンとダブルネガティブサンプリングを使用してバッチハードトリプレット損失関数を最適化し、カテゴリベースのアラインメント損失とディスクリミネーターベースのアラインメント損失を利用して、深い特徴のキャリブレーションを実行します。広範な実験により、深い特徴のキャリブレーションを使用したSEJEアプローチは、最先端のアプローチを大幅に上回っています。
This paper introduces a two-phase deep feature calibration framework for efficient learning of semantics enhanced text-image cross-modal joint embedding, which clearly separates the deep feature calibration in data preprocessing from training the joint embedding model. We use the Recipe1M dataset for the technical description and empirical validation. In preprocessing, we perform deep feature calibration by combining deep feature engineering with semantic context features derived from raw text-image input data. We leverage LSTM to identify key terms, NLP methods to produce ranking scores for key terms before generating the key term feature. We leverage wideResNet50 to extract and encode the image category semantics to help semantic alignment of the learned recipe and image embeddings in the joint latent space. In joint embedding learning, we perform deep feature calibration by optimizing the batch-hard triplet loss function with soft-margin and double negative sampling, also utilizing the category-based alignment loss and discriminator-based alignment loss. Extensive experiments demonstrate that our SEJE approach with the deep feature calibration significantly outperforms the state-of-the-art approaches.
updated: Sun Aug 08 2021 12:50:28 GMT+0000 (UTC)
published: Mon Aug 02 2021 08:16:58 GMT+0000 (UTC)
