arXiv reaDer
別の視点からの視覚的質問応答: CLEVR メンタル ローテーション テスト
Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests
人間の視覚的推論と知覚を理解するために、さまざまな種類の心の回転テストが心理学で広く使用されてきました。オブジェクトまたは視覚的なシーンが別の視点からどのように見えるかを理解することは、困難な問題であり、単一の画像から実行する必要がある場合はさらに困難になります.そのシーンが別の視点から観察された場合、そのシーンの特性について質問が提起される制御された設定を調査します。これを行うために、CLEVR Mental Rotation Tests (CLEVR-MRT) と呼ばれる新しいバージョンの CLEVR データセットを作成しました。 CLEVR-MRT を使用して、標準的な方法を検証し、それらがどのように不十分であるかを示し、シーンの体積表現を推測することを含む新しいニューラル アーキテクチャを調査します。これらのボリュームは、カメラで調整された変換を介して操作して、質問に答えることができます。厳密なアブレーションを通じてさまざまなモデル バリアントの有効性を調べ、体積表現の有効性を示します。
Different types of mental rotation tests have been used extensively in psychology to understand human visual reasoning and perception. Understanding what an object or visual scene would look like from another viewpoint is a challenging problem that is made even harder if it must be performed from a single image. We explore a controlled setting whereby questions are posed about the properties of a scene if that scene was observed from another viewpoint. To do this we have created a new version of the CLEVR dataset that we call CLEVR Mental Rotation Tests (CLEVR-MRT). Using CLEVR-MRT we examine standard methods, show how they fall short, then explore novel neural architectures that involve inferring volumetric representations of a scene. These volumes can be manipulated via camera-conditioned transformations to answer the question. We examine the efficacy of different model variants through rigorous ablations and demonstrate the efficacy of volumetric representations.
updated: Sat Dec 03 2022 16:02:48 GMT+0000 (UTC)
published: Sat Dec 03 2022 16:02:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト