arXiv reaDer
映画における人物行動インスタンス検索のための時空間アイデンティティ検証方法
A Spatio-Temporal Identity Verification Method for Person-Action Instance Search in Movies
ビデオ検索における困難な問題の1つとして、Person-Action Instance Search(INS)は、特定の人物が大量のビデオショットから特定のアクションを実行するショットを取得することを目的としています。既存の方法には、主に2つのステップが含まれます。最初に、2つの個別のINSブランチ、つまり、個人INSとアクションINSが別々に実行され、最初の個人とアクションのランキングスコアが計算されます。次に、両方のスコアが直接融合されて、最終的なランキングリストが生成されます。ただし、2つの個別のINSスコアを直接集計しても、個人と行動の間のIDの一貫性を保証することはできません。たとえば、「パットが立っている」と「イアンがソファに座っている」のショットは、「パットがソファに座っている」または「イアンが立っている」と誤って理解される可能性があります。上記のID不整合問題(IIP)に対処するために、時空間ID検証方法を検討します。具体的には、空間次元では、人物INSと行動INSの直接融合スコアを最適化するためのアイデンティティ整合性検証スキームを提案します。動機は、顔検出の結果が通常、アイデンティティの一貫性のあるアクション境界ボックスにあるという観察に由来します。さらに、時間的次元では、複雑な撮影条件を考慮して、連続するビデオフレームで欠落している顔/アクションの検出結果を補間するためのフレーム間検出拡張操作を提案します。提案された方法は大規模なTRECVIDINSデータセットで評価され、実験結果は、私たちの方法がIIPを効果的に軽減し、TRECVID2019と2020INSタスクの両方で既存の2位を超えることができることを示しています。
As one of the challenging problems in video search, Person-Action Instance Search (INS) aims to retrieve shots with specific person carrying out specific action from massive video shots. Existing methods mainly include two steps: First, two individual INS branches, i.e., person INS and action INS, are separately conducted to compute the initial person and action ranking scores; Second, both scores are directly fused to generate the final ranking list. However, direct aggregation of two individual INS scores cannot guarantee the identity consistency between person and action. For example, a shot with "Pat is standing" and "Ian is sitting on couch" may be erroneously understood as "Pat is sitting on couch" or "Ian is standing". To address the above identity inconsistency problem (IIP), we study a spatio-temporal identity verification method. Specifically, in the spatial dimension, we propose an identity consistency verification scheme to optimize the direct fusion score of person INS and action INS. The motivation originates from an observation that face detection results usually locate in the identity-consistent action bounding boxes. Moreover, in the temporal dimension, considering the complex filming condition, we propose an inter-frame detection extension operation to interpolate missing face/action detection results in successive video frames. The proposed method is evaluated on the large scale TRECVID INS dataset, and the experimental results show that our method can effectively mitigate the IIP and surpass the existing second places in both TRECVID 2019 and 2020 INS tasks.
updated: Sat Oct 30 2021 11:00:47 GMT+0000 (UTC)
published: Sat Oct 30 2021 11:00:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト