Fusion of Detected Objects in Text for Visual Question Answering
 マルチモーダルコンテキストのモデルを進化させるために、視覚と自然言語を組み合わせたデータ用のシンプルかつ強力なニューラルアーキテクチャを導入します。 「テキストトランスフォーマーのバウンディングボックス」(B2T2)は、単一の統合アーキテクチャ内の画像の一部に単語をバインドする参照情報も活用します。 B2T2はVisual Commonsense Reasoningベンチマーク(で非常に効果的であり、公開されたベースラインと比較してエラー率が25%の相対的な新しい最先端を達成し、これまでで最高のパフォーマンスを実現パブリックリーダーボード(2019年5月22日現在)詳細なアブレーション分析は、視覚的特徴をテキスト分析に早期に統合することが新しいアーキテクチャの有効性の鍵であることを示しています。モデルのリファレンス実装が提供されています(。
To advance models of multimodal context, we introduce a simple yet powerful neural architecture for data that combines vision and natural language. The "Bounding Boxes in Text Transformer" (B2T2) also leverages referential information binding words to portions of the image in a single unified architecture. B2T2 is highly effective on the Visual Commonsense Reasoning benchmark (, achieving a new state-of-the-art with a 25% relative reduction in error rate compared to published baselines and obtaining the best performance to date on the public leaderboard (as of May 22, 2019). A detailed ablation analysis shows that the early integration of the visual features into the text analysis is key to the effectiveness of the new architecture. A reference implementation of our models is provided (
updated: Sun Nov 03 2019 05:04:09 GMT+0000 (UTC)
published: Wed Aug 14 2019 10:03:12 GMT+0000 (UTC)
