arXiv reaDer
クラスタリングの観点からのタイムスタンプ監視アクション セグメンテーション
Timestamp-Supervised Action Segmentation from the Perspective of Clustering
タイムスタンプ監視下でのビデオ アクション セグメンテーションは、アノテーション コストが低いため、最近大きな注目を集めています。ほとんどの既存の方法は、各ビデオのすべてのフレームの疑似ラベルを生成して、セグメンテーション モデルをトレーニングします。ただし、これらのメソッドは、特にあいまいな間隔と呼ばれる、2 つの連続するアクション間の遷移領域にある意味的に不明確なフレームに対して、誤った擬似ラベルに悩まされます。この問題に対処するために、クラスタリングの観点から、次の 2 つの部分を含む新しいフレームワークを提案します。第 1 に、疑似ラベル アンサンブルは、不完全ではあるが高品質の疑似ラベル シーケンスを生成します。この場合、あいまいな間隔のフレームには疑似ラベルがありません。第二に、反復クラスタリングは、クラスタリングによって擬似ラベルをあいまいな間隔に繰り返し伝播し、擬似ラベルシーケンスを更新してモデルをトレーニングします。さらに、クラスタリングの損失を導入します。これにより、同じアクション セグメント内のフレームの機能がよりコンパクトになります。広範な実験により、我々の方法の有効性が示されています。
Video action segmentation under timestamp supervision has recently received much attention due to lower annotation costs. Most existing methods generate pseudo-labels for all frames in each video to train the segmentation model. However, these methods suffer from incorrect pseudo-labels, especially for the semantically unclear frames in the transition region between two consecutive actions, which we call ambiguous intervals. To address this issue, we propose a novel framework from the perspective of clustering, which includes the following two parts. First, pseudo-label ensembling generates incomplete but high-quality pseudo-label sequences, where the frames in ambiguous intervals have no pseudo-labels. Second, iterative clustering iteratively propagates the pseudo-labels to the ambiguous intervals by clustering, and thus updates the pseudo-label sequences to train the model. We further introduce a clustering loss, which encourages the features of frames within the same action segment more compact. Extensive experiments show the effectiveness of our method.
updated: Sun Apr 23 2023 02:45:46 GMT+0000 (UTC)
published: Thu Dec 22 2022 13:35:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト