ビデオ関係の検出は、コンピュータビジョンにおいて新しく困難な問題を形成します。この問題では、対象とオブジェクトを時空間的にローカライズする必要があり、2つの間に相互作用がある場合にのみ、述語ラベルを割り当てる必要があります。ビデオ関係の検出における最近の進歩にもかかわらず、全体的なパフォーマンスはまだ限界であり、問題を解決するための重要な要素が何であるかは依然として不明です。オブジェクト検出とアクションローカリゼーションの文献に設定されている例に従って、現在のビデオ関係検出アプローチのエラー診断について詳しく説明します。検出エラーの原因を分析するための診断ツールを紹介します。私たちのツールは、誤検知分析に使用されるビデオ関係の検出に固有のさまざまなエラータイプを定義することにより、平均平均適合率の単一のスカラーメトリックを超えた現在のアプローチを評価および比較します。さらに、関係の長さ、主語/目的語/述語インスタンスの数、主語/目的語のサイズなど、偽陰性分析のパフォーマンスに影響を与えるさまざまな要因を調べます。最後に、各エラータイプのオラクル修正を検討する際のビデオリレーションのパフォーマンスへの影響を示します。 2つのビデオ関係ベンチマークで、現在のアプローチが優れている点と不十分な点を示し、この分野で最も重要な将来の方向性を特定できるようにします。このツールはhttps://github.com/shanshuo/DiagnoseVRDで入手できます。
Video relation detection forms a new and challenging problem in computer vision, where subjects and objects need to be localized spatio-temporally and a predicate label needs to be assigned if and only if there is an interaction between the two. Despite recent progress in video relation detection, overall performance is still marginal and it remains unclear what the key factors are towards solving the problem. Following examples set in the object detection and action localization literature, we perform a deep dive into the error diagnosis of current video relation detection approaches. We introduce a diagnostic tool for analyzing the sources of detection errors. Our tool evaluates and compares current approaches beyond the single scalar metric of mean Average Precision by defining different error types specific to video relation detection, used for false positive analyses. Moreover, we examine different factors of influence on the performance in a false negative analysis, including relation length, number of subject/object/predicate instances, and subject/object size. Finally, we present the effect on video relation performance when considering an oracle fix for each error type. On two video relation benchmarks, we show where current approaches excel and fall short, allowing us to pinpoint the most important future directions in the field. The tool is available at https://github.com/shanshuo/DiagnoseVRD.