arXiv reaDer
粗い多重解像度の時間的畳み込みネットワーク
Coarse to Fine Multi-Resolution Temporal Convolutional Network
時間畳み込みネットワーク(TCN)は、時間ビデオセグメンテーションに一般的に使用されるアーキテクチャです。ただし、TCNは過剰なセグメンテーションエラーに悩まされる傾向があり、スムーズさと時間的一貫性を確保するために追加の改良モジュールが必要です。この作業では、シーケンスの断片化の問題に取り組むための新しい時間エンコーダ-デコーダを提案します。特に、デコーダーは、複数の時間解像度の暗黙的なアンサンブルを備えた粗い構造から微細な構造に従います。アンサンブルは、追加のリファインメントモジュールの必要性を回避して、より正確でより適切に調整されたよりスムーズなセグメンテーションを生成します。さらに、多重解像度機能拡張戦略を使用してトレーニングを強化し、さまざまな時間解像度に対する堅牢性を促進します。最後に、アーキテクチャをサポートし、シーケンスの一貫性をさらに高めるために、ビデオレベルでの誤分類にペナルティを課すアクションロスを提案します。実験によると、スタンドアロンアーキテクチャは、新しい機能拡張戦略と新しい損失とともに、3つの時間的ビデオセグメンテーションベンチマークで最先端のパフォーマンスを上回っています。
Temporal convolutional networks (TCNs) are a commonly used architecture for temporal video segmentation. TCNs however, tend to suffer from over-segmentation errors and require additional refinement modules to ensure smoothness and temporal coherency. In this work, we propose a novel temporal encoder-decoder to tackle the problem of sequence fragmentation. In particular, the decoder follows a coarse-to-fine structure with an implicit ensemble of multiple temporal resolutions. The ensembling produces smoother segmentations that are more accurate and better-calibrated, bypassing the need for additional refinement modules. In addition, we enhance our training with a multi-resolution feature-augmentation strategy to promote robustness to varying temporal resolutions. Finally, to support our architecture and encourage further sequence coherency, we propose an action loss that penalizes misclassifications at the video level. Experiments show that our stand-alone architecture, together with our novel feature-augmentation strategy and new loss, outperforms the state-of-the-art on three temporal video segmentation benchmarks.
updated: Sun May 23 2021 06:07:40 GMT+0000 (UTC)
published: Sun May 23 2021 06:07:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト