arXiv reaDer
SAViR-T:トランスフォーマーを使用した空間的に注意深い視覚的推論
SAViR-T: Spatially Attentive Visual Reasoning with Transformers
レイヴン漸進行列(RPM)で具体化された視覚的推論問題のファミリーのための新しい計算モデル「SAViR-T」を提示します。私たちのモデルは、パズルの各画像内の視覚要素の明示的な空間セマンティクスを考慮し、空間視覚トークンとしてエンコードされ、視覚推論タスクに非常に関連する画像内および画像間トークンの依存関係を学習します。トランスフォーマーベースのSAViR-Tアーキテクチャーを介してモデル化されたトークン単位の関係は、グループルールの一貫性を活用してグループ(行または列)駆動の表現を抽出し、これを誘導バイアスとして使用して、上位2行の基になるルール表現を抽出します(または列)RPMのトークンごと。この関係表現を使用して、RPMの最後の行または列を完成させる正しい選択画像を見つけます。 RAVEN、I-RAVEN、RAVEN-FAIR、PGMなどの合成RPMベンチマークと、自然画像ベースの「V-PROM」の両方にわたる広範な実験により、SAViR-Tがビジュアルに新しい最先端を設定することが実証されました。推論、以前のモデルのパフォーマンスをかなりの差で上回っています。
We present a novel computational model, "SAViR-T", for the family of visual reasoning problems embodied in the Raven's Progressive Matrices (RPM). Our model considers explicit spatial semantics of visual elements within each image in the puzzle, encoded as spatio-visual tokens, and learns the intra-image as well as the inter-image token dependencies, highly relevant for the visual reasoning task. Token-wise relationship, modeled through a transformer-based SAViR-T architecture, extract group (row or column) driven representations by leveraging the group-rule coherence and use this as the inductive bias to extract the underlying rule representations in the top two row (or column) per token in the RPM. We use this relation representations to locate the correct choice image that completes the last row or column for the RPM. Extensive experiments across both synthetic RPM benchmarks, including RAVEN, I-RAVEN, RAVEN-FAIR, and PGM, and the natural image-based "V-PROM" demonstrate that SAViR-T sets a new state-of-the-art for visual reasoning, exceeding prior models' performance by a considerable margin.
updated: Sat Jun 18 2022 18:26:20 GMT+0000 (UTC)
published: Sat Jun 18 2022 18:26:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト