arXiv reaDer
PQA:知覚的な質問応答
PQA: Perceptual Question Answering
知覚組織は、人間の視覚系に関して確立された数少ない理論の1つです。これは、セグメンテーションと検出に関する多くの深層前の独創的な研究を支えましたが、深層モデルの学習への優先的な移行以来、研究は急速に衰退しています。限られた試みのうち、ほとんどは知覚的な組織的ルールを使用して複雑な視覚シーンを解釈することを目的としています。ただし、モデルは実際の画像の視覚的な複雑さを効果的に捉えることができなかったため、これは最適ではないことが証明されています。この論文では、2つの位置の変化を提唱することにより、知覚組織の研究を活性化させます。(i)複雑な実際の画像ではなく、意図的に生成された合成データを調べ、(ii)代わりに、新しい知覚的に有効なパターンを合成するようにマシンに依頼します。既存のデータを説明する。私たちの全体的な答えは、新しい視覚的課題、つまり知覚的質問応答(PQA)の課題の導入にあります。知覚的な質問と回答のペアの例を観察すると、PQAの目標は、完全にゼロから回答を生成することによって同様の質問を解決することです(図1を参照)。したがって、私たちの最初の貢献は、それぞれが特定のゲシュタルト原理のために特別に生成された、知覚的な質問と回答のペアの最初のデータセットです。次に、人間の心理学から洞察を借りて、知覚組織を自己注意の問題としてキャストするエージェントを設計します。提案されたグリッド間マッピングネットワークは、最初から回答パターンを直接生成します。実験は、私たちのエージェントがナイーブで強力なベースラインの選択を上回っていることを示しています。しかし、人間の研究によると、平均的な人間と比較した場合、私たちの学習には天文学的に多くのデータが使用されており、将来の研究が必要です(データセットの有無にかかわらず)。
Perceptual organization remains one of the very few established theories on the human visual system. It underpinned many pre-deep seminal works on segmentation and detection, yet research has seen a rapid decline since the preferential shift to learning deep models. Of the limited attempts, most aimed at interpreting complex visual scenes using perceptual organizational rules. This has however been proven to be sub-optimal, since models were unable to effectively capture the visual complexity in real-world imagery. In this paper, we rejuvenate the study of perceptual organization, by advocating two positional changes: (i) we examine purposefully generated synthetic data, instead of complex real imagery, and (ii) we ask machines to synthesize novel perceptually-valid patterns, instead of explaining existing data. Our overall answer lies with the introduction of a novel visual challenge -- the challenge of perceptual question answering (PQA). Upon observing example perceptual question-answer pairs, the goal for PQA is to solve similar questions by generating answers entirely from scratch (see Figure 1). Our first contribution is therefore the first dataset of perceptual question-answer pairs, each generated specifically for a particular Gestalt principle. We then borrow insights from human psychology to design an agent that casts perceptual organization as a self-attention problem, where a proposed grid-to-grid mapping network directly generates answer patterns from scratch. Experiments show our agent to outperform a selection of naive and strong baselines. A human study however indicates that ours uses astronomically more data to learn when compared to an average human, necessitating future research (with or without our dataset).
updated: Thu Apr 08 2021 08:06:21 GMT+0000 (UTC)
published: Thu Apr 08 2021 08:06:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト