arXiv reaDer
VLCDoC:クロスモーダルドキュメント分類のための視覚言語対照プレトレーニングモデル
VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal Document Classification
ドキュメントデータからのマルチモーダル学習は、学習可能なダウンストリームアプローチの前に、意味的に意味のある機能を事前にトレーニングできるため、最近大きな成功を収めています。この論文では、モダリティ内およびモダリティ間の関係を考慮して、言語とビジョンの手がかりを通じてクロスモーダル表現を学習することにより、ドキュメント分類の問題に取り組みます。異なるモダリティからの機能を共通の表現空間にマージする代わりに、提案された方法は、高レベルの相互作用を活用し、モダリティ内およびモダリティ間の効果的な注意の流れから関連する意味情報を学習します。提案された学習目標は、モダリティ内およびモダリティ間アライメントタスク間で考案され、タスクごとの類似性分布は、共通の特徴表現空間で負のサンプルペアを同時に対比しながら正のサンプルペアを縮小することによって計算されます}。公開ドキュメント分類データセットに関する広範な実験は、小規模データセットと大規模データセットの両方でのモデルの有効性と一般化能力を示しています。
Multimodal learning from document data has achieved great success lately as it allows to pre-train semantically meaningful features as a prior into a learnable downstream approach. In this paper, we approach the document classification problem by learning cross-modal representations through language and vision cues, considering intra- and inter-modality relationships. Instead of merging features from different modalities into a common representation space, the proposed method exploits high-level interactions and learns relevant semantic information from effective attention flows within and across modalities. The proposed learning objective is devised between intra- and inter-modality alignment tasks, where the similarity distribution per task is computed by contracting positive sample pairs while simultaneously contrasting negative ones in the common feature representation space}. Extensive experiments on public document classification datasets demonstrate the effectiveness and the generalization capacity of our model on both low-scale and large-scale datasets.
updated: Mon Jul 11 2022 14:33:37 GMT+0000 (UTC)
published: Tue May 24 2022 12:28:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト