arXiv reaDer
TxT:トランスフォーマーを使用したクロスモーダルエンドツーエンド学習
TxT: Crossmodal End-to-End Learning with Transformers
視覚的な質問応答(VQA)など、複数のモダリティで推論するには、ドメイン間でセマンティックの概念を調整する必要があります。エンドツーエンドの学習が広く成功しているにもかかわらず、今日のマルチモーダルパイプラインは、視覚世界の表現として、オブジェクト検出器(通常はFaster R-CNN)から事前に抽出された固定機能を大いに活用しています。明らかな欠点は、視覚的表現が目前のマルチモーダルタスクに特に調整されていないことです。同時に、変圧器ベースの物体検出器は人気を博していますが、今日のマルチモーダルパイプラインでは採用されていません。トランスフォーマーベースのクロスモーダルパイプラインであるTxTを使用して両方の欠点に対処します。これにより、ダウンストリームタスクの言語コンポーネントとビジュアルコンポーネントの両方を完全にエンドツーエンドで微調整できます。グローバルコンテキストの統合とそのスケーラビリティに関するマルチモーダル推論のためのトランスベースの検出器の既存の制限を克服します。私たちのトランスフォーマーベースのマルチモーダルモデルは、マルチモーダル質問応答のためのエンドツーエンドの学習からかなりの利益を達成します。
Reasoning over multiple modalities, e.g. in Visual Question Answering (VQA), requires an alignment of semantic concepts across domains. Despite the widespread success of end-to-end learning, today's multimodal pipelines by and large leverage pre-extracted, fixed features from object detectors, typically Faster R-CNN, as representations of the visual world. The obvious downside is that the visual representation is not specifically tuned to the multimodal task at hand. At the same time, while transformer-based object detectors have gained popularity, they have not been employed in today's multimodal pipelines. We address both shortcomings with TxT, a transformer-based crossmodal pipeline that enables fine-tuning both language and visual components on the downstream task in a fully end-to-end manner. We overcome existing limitations of transformer-based detectors for multimodal reasoning regarding the integration of global context and their scalability. Our transformer-based multimodal model achieves considerable gains from end-to-end learning for multimodal question answering.
updated: Thu Sep 09 2021 17:12:20 GMT+0000 (UTC)
published: Thu Sep 09 2021 17:12:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト