arXiv reaDer
偏りのないシーン グラフ生成のためのコンテキストを意識した専門家の混合
Context-aware Mixture-of-Experts for Unbiased Scene Graph Generation
シーン グラフ生成 (SGG) は、近年大きな進歩を遂げています。ただし、その根底にある述語クラスのロングテール分布は難しい問題です。非常に不均衡な述語分布の場合、既存のアプローチは通常、複雑なコンテキストエンコーダーを構築して、述語と複雑なネットワークに対するシーンコンテキストの固有の関連性を抽出し、非常に不均衡な述語分布のネットワークモデルの学習能力を向上させます。偏りのない SGG 問題に対処するために、Context-Aware Mixture-of-Experts (CAME) と呼ばれるシンプルで効果的な方法を導入して、モデルの多様性を改善し、複雑な設計なしで偏りのある SGG を軽減します。具体的には、専門家の混合を分割およびアンサンブル戦略と統合して、偏りのないシーングラフジェネレーターの大部分に適用可能な、述語クラスの非常に長い尾の分布を改善することを提案します。これにより、偏った SGG が減少し、モデルはより均等に分散された述語予測を予測する傾向があります。さまざまな述語分布レベルを区別するために、同じ重みを持つエキスパートは十分に多様ではありません。ネットワークが豊富なシーン コンテキストを動的に利用できるようにし、モデルの多様性をさらに高めるために、組み込みモジュールを使用してコンテキスト エンコーダーを作成するだけです。シーン コンテキストに対する各エキスパートの重要性、および各エキスパートに対する各述語は、エキスパートの重み付け (EW) および述語の重み付け (PW) 戦略に動的に関連付けられます。 Visual Genome データセットを使用して 3 つのタスクで大規模な実験を行い、CAME が最近の方法よりも優れており、最先端のパフォーマンスを達成することを示しました。私たちのコードは公開されます。
Scene graph generation (SGG) has gained tremendous progress in recent years. However, its underlying long-tailed distribution of predicate classes is a challenging problem. For extremely unbalanced predicate distributions, existing approaches usually construct complicated context encoders to extract the intrinsic relevance of scene context to predicates and complex networks to improve the learning ability of network models for highly imbalanced predicate distributions. To address the unbiased SGG problem, we introduce a simple yet effective method dubbed Context-Aware Mixture-of-Experts (CAME) to improve model diversity and mitigate biased SGG without complicated design. Specifically, we propose to integrate the mixture of experts with a divide and ensemble strategy to remedy the severely long-tailed distribution of predicate classes, which is applicable to the majority of unbiased scene graph generators. The biased SGG is thereby reduced, and the model tends to anticipate more evenly distributed predicate predictions. To differentiate between various predicate distribution levels, experts with the same weights are not sufficiently diverse. In order to enable the network dynamically exploit the rich scene context and further boost the diversity of model, we simply use the built-in module to create a context encoder. The importance of each expert to scene context and each predicate to each expert is dynamically associated with expert weighting (EW) and predicate weighting (PW) strategy. We have conducted extensive experiments on three tasks using the Visual Genome dataset, showing that CAME outperforms recent methods and achieves state-of-the-art performance. Our code will be available publicly.
updated: Sun Jan 01 2023 08:02:45 GMT+0000 (UTC)
published: Mon Aug 15 2022 10:39:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト