arXiv reaDer
Cerberus Transformer:共同セマンティック、アフォーダンス、属性解析
Cerberus Transformer: Joint Semantic, Affordance and Attribute Parsing
マルチタスクの屋内シーンの理解は、さまざまなタスクの親和性がパフォーマンスの向上につながる可能性があるため、興味深い定式化と広く見なされています。この論文では、共同セマンティック、アフォーダンス、属性解析の新しい問題に取り組みます。ただし、それを正常に解決するには、モデルが長距離の依存関係をキャプチャし、弱く整列されたデータから学習し、トレーニング中にサブタスクのバランスを適切にとる必要があります。この目的のために、Cerberusという名前の注意ベースのアーキテクチャと調整されたトレーニングフレームワークを提案します。私たちの方法は、前述の課題に効果的に対処し、3つのタスクすべてで最先端のパフォーマンスを実現します。さらに、詳細な分析により、人間の認知と一致する概念の親和性が示され、弱く教師あり学習の可能性を探求するように促されます。驚いたことに、Cerberusはわずか0.1%〜1%の注釈を使用して強力な結果を達成しています。視覚化により、この成功がタスク全体の共通の注意マップに起因することがさらに確認されます。コードとモデルには、https://github.com/OPEN-AIR-SUN/Cerberusからアクセスできます。
Multi-task indoor scene understanding is widely considered as an intriguing formulation, as the affinity of different tasks may lead to improved performance. In this paper, we tackle the new problem of joint semantic, affordance and attribute parsing. However, successfully resolving it requires a model to capture long-range dependency, learn from weakly aligned data and properly balance sub-tasks during training. To this end, we propose an attention-based architecture named Cerberus and a tailored training framework. Our method effectively addresses the aforementioned challenges and achieves state-of-the-art performance on all three tasks. Moreover, an in-depth analysis shows concept affinity consistent with human cognition, which inspires us to explore the possibility of weakly supervised learning. Surprisingly, Cerberus achieves strong results using only 0.1%-1% annotation. Visualizations further confirm that this success is credited to common attention maps across tasks. Code and models can be accessed at https://github.com/OPEN-AIR-SUN/Cerberus.
updated: Wed Nov 24 2021 16:32:15 GMT+0000 (UTC)
published: Wed Nov 24 2021 16:32:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト