arXiv reaDer
マルチモーダルトレーニングによるユニモーダル顔分類
Unimodal Face Classification with Multimodal Training
顔認識は、セキュリティチェック、資格情報アクセス、モーションセンシングゲームなどのさまざまなマルチメディアアプリケーションで重要なタスクです。ただし、入力面にノイズが多い場合(たとえば、状態の悪いRGB画像)、または特定の情報が不足している場合(たとえば、色のない3D面)、このタスクは困難です。この作業では、トレーニング中のクロスモダリティ関係を活用し、テスト中の不完全な単一モダリティ入力の補完として適用する、堅牢な顔分類のためのマルチモーダルトレーニングユニモーダルテスト(MTUT)フレームワークを提案します。技術的には、トレーニング中に、フレームワークは(1)顔の属性を使用してイントラモダリティとクロスモダリティの両方のオートエンコーダを構築し、潜在的な埋め込みをマルチモーダル記述子として学習します。(2)新しいマルチモーダル埋め込み発散損失を提案して、異なるモダリティ。これにより、役に立たないモダリティ(存在する場合)がモデルを混乱させることも適応的に回避されます。このようにして、学習したオートエンコーダは、テスト段階で単一モダリティの顔分類に堅牢な埋め込みを生成できます。 2Dと3Dの両方のモダリティがトレーニングに利用できる場合、2つの顔分類データセットと2種類のテスト入力((1)状態の悪い画像と(2)点群または3D顔メッシュ)でフレームワークを評価します。 MTUTフレームワークが、両方のデータセットの2Dおよび3D設定で10のベースラインを一貫して上回っていることを実験的に示しています。
Face recognition is a crucial task in various multimedia applications such as security check, credential access and motion sensing games. However, the task is challenging when an input face is noisy (e.g. poor-condition RGB image) or lacks certain information (e.g. 3D face without color). In this work, we propose a Multimodal Training Unimodal Test (MTUT) framework for robust face classification, which exploits the cross-modality relationship during training and applies it as a complementary of the imperfect single modality input during testing. Technically, during training, the framework (1) builds both intra-modality and cross-modality autoencoders with the aid of facial attributes to learn latent embeddings as multimodal descriptors, (2) proposes a novel multimodal embedding divergence loss to align the heterogeneous features from different modalities, which also adaptively avoids the useless modality (if any) from confusing the model. This way, the learned autoencoders can generate robust embeddings in single-modality face classification on test stage. We evaluate our framework in two face classification datasets and two kinds of testing input: (1) poor-condition image and (2) point cloud or 3D face mesh, when both 2D and 3D modalities are available for training. We experimentally show that our MTUT framework consistently outperforms ten baselines on 2D and 3D settings of both datasets.
updated: Wed Dec 08 2021 09:12:47 GMT+0000 (UTC)
published: Wed Dec 08 2021 09:12:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト