arXiv reaDer
コンテキスト-LGM:コンテキストアウェアオブジェクト認識のためのオブジェクト-コンテキスト関係の活用
Context-LGM: Leveraging Object-Context Relation for Context-Aware Object Recognition
対象のオブジェクトに関連する状況要因と呼ばれるコンテキストは、視覚認識におけるオブジェクトの状態またはプロパティを推測するのに役立ちます。このようなコンテキスト機能は(インスタンス間で)多様すぎて注釈を付けることができないため、既存の試みでは、画像ラベルを監視として利用してそれらを学習し、機能ピラミッド、コンテキストアテンションなどのさまざまなコンテキストトリックをもたらします。ただし、コンテキストを注意深くモデル化しないと、プロパティ、特にオブジェクトとの関係では、推定されるコンテキストが大幅に不正確になる可能性があります。この問題を修正するために、オブジェクトとコンテキストの関係を考慮して階層的にモデル化する、新しいコンテキスト潜在生成モデル(Context-LGM)を提案します。具体的には、まず、相関する潜在変数のペアを使用して潜在生成モデルを導入し、それぞれオブジェクトとコンテキストをモデル化し、生成プロセスを介してそれらの相関を埋め込みます。次に、コンテキスト機能を推測するために、Variational Auto-Encoder(VAE)の目的関数を再定式化します。ここで、コンテキスト機能は、オブジェクトを条件とする事後分布として学習されます。最後に、このコンテキスト事後を実装するために、オブジェクトの情報を参照として受け取り、相関するコンテキスト要因を特定するTransformerを導入します。私たちの方法の有効性は、2つのコンテキストアウェアオブジェクト認識タスク、すなわち肺がんの予測と感情認識の最先端のパフォーマンスによって検証されます。
Context, as referred to situational factors related to the object of interest, can help infer the object's states or properties in visual recognition. As such contextual features are too diverse (across instances) to be annotated, existing attempts simply exploit image labels as supervision to learn them, resulting in various contextual tricks, such as features pyramid, context attention, etc. However, without carefully modeling the context's properties, especially its relation to the object, their estimated context can suffer from large inaccuracy. To amend this problem, we propose a novel Contextual Latent Generative Model (Context-LGM), which considers the object-context relation and models it in a hierarchical manner. Specifically, we firstly introduce a latent generative model with a pair of correlated latent variables to respectively model the object and context, and embed their correlation via the generative process. Then, to infer contextual features, we reformulate the objective function of Variational Auto-Encoder (VAE), where contextual features are learned as a posterior distribution conditioned on the object. Finally, to implement this contextual posterior, we introduce a Transformer that takes the object's information as a reference and locates correlated contextual factors. The effectiveness of our method is verified by state-of-the-art performance on two context-aware object recognition tasks, i.e. lung cancer prediction and emotion recognition.
updated: Fri Oct 08 2021 11:31:58 GMT+0000 (UTC)
published: Fri Oct 08 2021 11:31:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト