レイヴンのプログレッシブ行列(RPM)は、人間の視覚的推論能力のテストに頻繁に使用されます。最近開発されたRPMのようなデータセットとソリューションモデルは、この種の問題を認知科学からコンピューターサイエンスに移します。 RPMデータセットのサンプルが不十分なために一般化のパフォーマンスが低いことを考慮して、画像の取り違えによるデータ拡張戦略を提案します。これは、さまざまな多肢選択問題、特に画像ベースのRPMのような問題に一般化できます。否定的な候補者の回答の潜在的な機能に焦点を当てることにより、モデルの視覚的な推論機能が強化されます。提案されたデータ拡張方法を適用することにより、最先端のモデルと比較して、さまざまなRPMのようなデータセットで大幅かつ一貫した改善を実現します。
Raven's Progressive Matrices (RPMs) are frequently-used in testing human's visual reasoning ability. Recently developed RPM-like datasets and solution models transfer this kind of problems from cognitive science to computer science. In view of the poor generalization performance due to insufficient samples in RPM datasets, we propose a data augmentation strategy by image mix-up, which is generalizable to a variety of multiple-choice problems, especially for image-based RPM-like problems. By focusing on potential functionalities of negative candidate answers, the visual reasoning capability of the model is enhanced. By applying the proposed data augmentation method, we achieve significant and consistent improvement on various RPM-like datasets compared with the state-of-the-art models.