面倒なピクセルごとのマスク注釈と比較して、クリックによるデータの注釈付けははるかに簡単で、画像のコストはわずか数秒です。ただし、クリックを適用してビデオセマンティックセグメンテーションモデルを学習することは、これまで検討されていませんでした。この作業では、WeClickと呼ばれる、クリックアノテーションを使用した効果的な弱教師ありビデオセマンティックセグメンテーションパイプラインを提案します。これにより、セマンティッククラスのインスタンスをシングルクリックでセグメント化することにより、面倒なアノテーション作業を節約できます。詳細なセマンティック情報はクリックによってキャプチャされないため、クリックラベルを使用して直接トレーニングすると、セグメンテーションの予測が不十分になります。この問題を軽減するために、推定された動きを介してターゲットフレームに隣接する予測を抽出することにより、ラベルのない豊富なビデオフレームの時間情報(メモリフローと呼ばれる)を活用する新しいメモリフロー知識蒸留戦略を設計します。また、モデル圧縮にはバニラナレッジ蒸留を採用しています。この場合、WeClickは、トレーニングフェーズ中に低コストのクリック注釈を使用してコンパクトなビデオセマンティックセグメンテーションモデルを学習しますが、推論期間中にリアルタイムで正確なモデルを実現します。 CityscapesとCamvidの実験結果は、WeClickが最先端の方法を上回り、パフォーマンスをベースラインより10.24%mIoU向上させ、リアルタイムの実行を実現することを示しています。
Compared with tedious per-pixel mask annotating, it is much easier to annotate data by clicks, which costs only several seconds for an image. However, applying clicks to learn video semantic segmentation model has not been explored before. In this work, we propose an effective weakly-supervised video semantic segmentation pipeline with click annotations, called WeClick, for saving laborious annotating effort by segmenting an instance of the semantic class with only a single click. Since detailed semantic information is not captured by clicks, directly training with click labels leads to poor segmentation predictions. To mitigate this problem, we design a novel memory flow knowledge distillation strategy to exploit temporal information (named memory flow) in abundant unlabeled video frames, by distilling the neighboring predictions to the target frame via estimated motion. Moreover, we adopt vanilla knowledge distillation for model compression. In this case, WeClick learns compact video semantic segmentation models with the low-cost click annotations during the training phase yet achieves real-time and accurate models during the inference period. Experimental results on Cityscapes and Camvid show that WeClick outperforms the state-of-the-art methods, increases performance by 10.24% mIoU than baseline, and achieves real-time execution.