シーン内のオブジェクトは常に関連しているわけではありません。 1 段階のシーン グラフ生成アプローチの実行効率は非常に高く、スパースな提案セットといくつかのクエリを使用してエンティティ ペア間の効果的な関係を推測します。しかし、それらは、主語実体、述語実体、目的語実体の三重集合における主語と目的語の関係のみに着目し、主語と述語、述語と目的語の関係を無視しており、モデルには自己推論能力が欠けている。さらに、一段階法では言語モダリティが無視されてきた。モデル推論能力を向上させるためには、言語モダリティの知識を掘り下げる必要があります。上記の欠点に対処するために、モデルに柔軟な自己推論能力を追加するために、視覚言語知識を備えた自己推論トランスフォーマー (SrTR) が提案されています。 SrTR ではエンコーダー デコーダー アーキテクチャが採用されており、トリプレット セット s+op、s+po、p+os の 3 つの推論を完了する自己推論型デコーダーが開発されています。大規模なトレーニング前の画像テキスト基盤モデルに着想を得て、視覚言語の事前知識が導入され、視覚言語アラインメント戦略が設計されて、関係推論を支援する事前知識を使用して視覚的表現を意味空間に投影します。 Visual Genome データセットの実験は、提案された方法の優位性と高速な推論能力を示しています。
Objects in a scene are not always related. The execution efficiency of the one-stage scene graph generation approaches are quite high, which infer the effective relation between entity pairs using sparse proposal sets and a few queries. However, they only focus on the relation between subject and object in triplet set subject entity, predicate entity, object entity, ignoring the relation between subject and predicate or predicate and object, and the model lacks self-reasoning ability. In addition, linguistic modality has been neglected in the one-stage method. It is necessary to mine linguistic modality knowledge to improve model reasoning ability. To address the above-mentioned shortcomings, a Self-reasoning Transformer with Visual-linguistic Knowledge (SrTR) is proposed to add flexible self-reasoning ability to the model. An encoder-decoder architecture is adopted in SrTR, and a self-reasoning decoder is developed to complete three inferences of the triplet set, s+o-p, s+p-o and p+o-s. Inspired by the large-scale pre-training image-text foundation models, visual-linguistic prior knowledge is introduced and a visual-linguistic alignment strategy is designed to project visual representations into semantic spaces with prior knowledge to aid relational reasoning. Experiments on the Visual Genome dataset demonstrate the superiority and fast inference ability of the proposed method.