arXiv reaDer
自己教師あり学習によるコンテキストからの理由
Reason from Context with Self-supervised Learning
空に浮かぶ小さな物体がゾウになることはありません。コンテキスト推論は、現在の入力を以前の経験と知識に照らして解釈する必要がある視覚認識において重要です。これまで、視覚認識における文脈推論の研究は、主に教師あり学習法で進められてきました。自己管理型学習体制で文脈知識を捉えることができるかどうかの問題は、未調査のままです。ここでは、コンテキストを意識した自己教師あり学習の方法論を確立しました。コンテキスト推論 (SeCo) のための新しい自己教師あり学習法を提案しました。SeCo への唯一の入力は、自然シーンに複数のオブジェクトが存在するラベルのない画像です。人間の視覚における中心窩と周辺の区別と同様に、SeCo は自己提案されたターゲット オブジェクト領域とそのコンテキストを個別に処理し、コンテキスト関連のターゲット情報を取得および更新するために学習可能な外部メモリを使用します。計算モデルによって学習された文脈上の関連付けを評価するために、2 つの評価プロトコル、リフト・ザ・フラップとオブジェクト・プライミングを導入し、文脈推論における「何」と「どこ」の問題に対処しました。両方のタスクで、SeCo はすべての最先端 (SOTA) の自己教師あり学習方法を大幅に上回っていました。私たちのネットワーク分析は、SeCo の外部メモリが以前のコンテキスト知識を保存することを学習し、フラップ タスクでのターゲット アイデンティティの推論を容易にすることを明らかにしました。さらに、心理物理実験を実施し、オブジェクト プライミング データセット (HOP) に人間のベンチマークを導入しました。定量的および定性的な結果は、SeCo が人間レベルのパフォーマンスに近似し、人間のような動作を示すことを示しています。すべてのソース コードとデータは、ここで公開されています。
A tiny object in the sky cannot be an elephant. Context reasoning is critical in visual recognition, where current inputs need to be interpreted in the light of previous experience and knowledge. To date, research into contextual reasoning in visual recognition has largely proceeded with supervised learning methods. The question of whether contextual knowledge can be captured with self-supervised learning regimes remains under-explored. Here, we established a methodology for context-aware self-supervised learning. We proposed a novel Self-supervised Learning Method for Context Reasoning (SeCo), where the only inputs to SeCo are unlabeled images with multiple objects present in natural scenes. Similar to the distinction between fovea and periphery in human vision, SeCo processes self-proposed target object regions and their contexts separately, and then employs a learnable external memory for retrieving and updating context-relevant target information. To evaluate the contextual associations learned by the computational models, we introduced two evaluation protocols, lift-the-flap and object priming, addressing the problems of "what" and "where" in context reasoning. In both tasks, SeCo outperformed all state-of-the-art (SOTA) self-supervised learning methods by a significant margin. Our network analysis revealed that the external memory in SeCo learns to store prior contextual knowledge, facilitating target identity inference in lift-the-flap task. Moreover, we conducted psychophysics experiments and introduced a Human benchmark in Object Priming dataset (HOP). Our quantitative and qualitative results demonstrate that SeCo approximates human-level performance and exhibits human-like behavior. All our source code and data are publicly available here.
updated: Wed Nov 23 2022 10:02:05 GMT+0000 (UTC)
published: Wed Nov 23 2022 10:02:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト