arXiv reaDer
LoSh: ビデオオブジェクトセグメンテーションを参照するための長短テキスト結合予測ネットワーク
LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation
参照ビデオ オブジェクト セグメンテーション (RVOS) は、ビデオ クリップ内の特定のテキスト表現によって参照されるターゲット インスタンスをセグメント化することを目的としています。テキスト表現には通常、インスタンスの外観、動作、および他のインスタンスとの関係に関する高度な説明が含まれています。したがって、RVOS モデルがビデオ内のこれらすべての属性を対応してキャプチャすることはかなり困難です。実際、モデルはインスタンスのアクションおよびリレーション関連の視覚属性を優先することがよくあります。これにより、ターゲット インスタンスのマスク予測が不完全になったり、不正確になったりする可能性があります。この論文では、元の長いテキスト表現から主題中心の短いテキスト表現を取得することで、この問題に取り組みます。短いものでは、ターゲット インスタンスの外観関連の情報のみが保持されるため、それを使用してモデルの注意をインスタンスの外観に集中させることができます。モデルに長いテキスト表現と短いテキスト表現の両方を使用して結合予測を行わせ、結合予測を調整するために長短予測交差損失を導入します。言語部分の改善に加えて、前後方向の視覚的一貫性の喪失も導入します。これは、一貫性を保つために、オプティカル フローを利用して、注釈付きフレームとその時間的隣接フレームの間で視覚的特徴をワープします。私たちは、エンドツーエンドのトレーニング用の 2 つの最先端のトランスフォーマーベースのパイプラインの上にメソッドを構築します。 A2D-Sentences および JHMDB-Sentences データセットに対する広範な実験により、私たちの手法が大幅に改善されたことがわかりました。
Referring video object segmentation (RVOS) aims to segment the target instance referred by a given text expression in a video clip. The text expression normally contains sophisticated descriptions of the instance's appearance, actions, and relations with others. It is therefore rather difficult for an RVOS model to capture all these attributes correspondingly in the video; in fact, the model often favours more on the action- and relation-related visual attribute of the instance. This can end up with incomplete or even incorrect mask prediction of the target instance. In this paper, we tackle this problem by taking a subject-centric short text expression from the original long text expression. The short one retains only the appearance-related information of the target instance so that we can use it to focus the model's attention on the instance's appearance. We let the model make joint predictions using both long and short text expressions and introduce a long-short predictions intersection loss to align the joint predictions. Besides the improvement on the linguistic part, we also introduce a forward-backward visual consistency loss, which utilizes optical flows to warp visual features between the annotated frames and their temporal neighbors for consistency. We build our method on top of two state of the art transformer-based pipelines for end-to-end training. Extensive experiments on A2D-Sentences and JHMDB-Sentences datasets show impressive improvements of our method.
updated: Wed Jun 14 2023 20:40:28 GMT+0000 (UTC)
published: Wed Jun 14 2023 20:40:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト