arXiv reaDer
SVIP:ビデオの手順のシーケンス検証
SVIP: Sequence VerIfication for Procedures in Videos
この論文では、同じアクションシーケンスを実行するポジティブビデオペアと、ステップレベルの変換を使用しながら同じタスクを実行するネガティブビデオペアを区別することを目的とした、新しいシーケンス検証タスクを提案します。このようなやりがいのあるタスクは、イベントレベルまたはフレームレベルの注釈を必要とする事前のアクション検出またはセグメンテーションなしのオープンセット設定にあります。そのために、公開されている2つのアクション関連データセットをstep-procedure-task構造で慎重に再編成します。あらゆる方法の有効性を完全に調査するために、化学実験におけるあらゆる種類のステップレベルの変換を列挙したスクリプト化されたビデオデータセットを収集します。さらに、新しい評価メトリックである加重距離比が導入され、評価中のさまざまなステップレベルの変換が同等になるようになっています。最後に、新しいシーケンスアラインメント損失を備えたトランスフォーマーエンコーダーに基づくシンプルで効果的なベースラインが導入され、他のアクション認識方法よりも優れた、ステップ間の長期的な依存関係をより適切に特徴付けます。コードとデータがリリースされます。
In this paper, we propose a novel sequence verification task that aims to distinguish positive video pairs performing the same action sequence from negative ones with step-level transformations but still conducting the same task. Such a challenging task resides in an open-set setting without prior action detection or segmentation that requires event-level or even frame-level annotations. To that end, we carefully reorganize two publicly available action-related datasets with step-procedure-task structure. To fully investigate the effectiveness of any method, we collect a scripted video dataset enumerating all kinds of step-level transformations in chemical experiments. Besides, a novel evaluation metric Weighted Distance Ratio is introduced to ensure equivalence for different step-level transformations during evaluation. In the end, a simple but effective baseline based on the transformer encoder with a novel sequence alignment loss is introduced to better characterize long-term dependency between steps, which outperforms other action recognition methods. Codes and data will be released.
updated: Tue May 10 2022 13:40:49 GMT+0000 (UTC)
published: Mon Dec 13 2021 07:03:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト