arXiv reaDer
変換主導の視覚的推論
Transformation Driven Visual Reasoning
このホワイトペーパーでは、重要な要素、つまり変換を導入することにより、新しい視覚的推論パラダイムを定義します。動機は、VQAのCLEVRなど、ほとんどの既存の視覚的推論タスクが、1つの画像のように、静的設定内の概念と関係をマシンがどの程度理解しているかをテストするためだけに定義されているという事実に由来します。この種の状態駆動型視覚推論アプローチには、ピアジェの理論で人間の認知に対する状態レベルの推論と同じくらい重要であることが示されている、マシンが異なる状態間のダイナミクスを推測する能力を持っているかどうかを反映するのに限界があると主張します。この問題に取り組むために、我々は新しい変換主導の視覚的推論タスクを提案します。初期状態と最終状態の両方が与えられた場合、ターゲットは、それぞれトリプレット(オブジェクト、属性、値)またはトリプレットのシーケンスとして表される、対応するシングルステップまたはマルチステップの変換を推測することです。この定義に従って、新しいデータセット、つまりTRANCEがCLEVRに基づいて構築されます。これには、〜Basic(シングルステップ変換)、Event(マルチステップ変換)、およびView(バリアントを使用したマルチステップ変換)の3つのレベルの設定が含まれます。ビュー)。実験結果は、最先端の視覚的推論モデルがBasicでうまく機能することを示していますが、イベントとビューに関する人間レベルのインテリジェンスにはまだほど遠いです。提案された新しいパラダイムは、機械の視覚的推論の開発を後押しすると信じています。この方向で、より高度な方法と実際のデータを調査する必要があります。 TVRのリソースは、https://hongxin2019.github.io/TVRで入手できます。
This paper defines a new visual reasoning paradigm by introducing an important factor, i.e.~transformation. The motivation comes from the fact that most existing visual reasoning tasks, such as CLEVR in VQA, are solely defined to test how well the machine understands the concepts and relations within static settings, like one image. We argue that this kind of state driven visual reasoning approach has limitations in reflecting whether the machine has the ability to infer the dynamics between different states, which has been shown as important as state-level reasoning for human cognition in Piaget's theory. To tackle this problem, we propose a novel transformation driven visual reasoning task. Given both the initial and final states, the target is to infer the corresponding single-step or multi-step transformation, represented as a triplet (object, attribute, value) or a sequence of triplets, respectively. Following this definition, a new dataset namely TRANCE is constructed on the basis of CLEVR, including three levels of settings, i.e.~Basic (single-step transformation), Event (multi-step transformation), and View (multi-step transformation with variant views). Experimental results show that the state-of-the-art visual reasoning models perform well on Basic, but are still far from human-level intelligence on Event and View. We believe the proposed new paradigm will boost the development of machine visual reasoning. More advanced methods and real data need to be investigated in this direction. The resource of TVR is available at https://hongxin2019.github.io/TVR.
updated: Fri Apr 02 2021 06:25:46 GMT+0000 (UTC)
published: Thu Nov 26 2020 07:11:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト