Semi-supervised estimation of event temporal length for cell event detection
  セルビデオでのセルイベントの検出は、長期間にわたるセルの動作を監視するために不可欠です。ディープラーニングメソッドは、従来の方法と比較して、細胞プロセスのより差別的な特徴をキャプチャする能力により、細胞イベントの検出に大きな成功を示しています。特に、ビデオシーケンスで観察可能な細胞イベントの変化を利用する畳み込み長期短期記憶(LSTM)モデルは、細胞ビデオでの有糸分裂検出の最先端です。ただし、それらの制限は、経験的に実行されることが多い入力シーケンス長の決定と、準備に費用がかかる注釈付きの大きなトレーニングデータセットの必要性です。私たちは、2つの重要な貢献を伴う有糸分裂検出のための最適な長さ検出の新しい半教師あり方法を提案します: (ii)その分布から、特定のビデオごとにLSTMモデルをトレーニングするための最適な入力シーケンス長と注釈付きフレームの最小数を推測するステップ。位相差顕微鏡ビデオで密集した幹細胞の有糸分裂を検出する方法を評価しました。私たちの実験データは、LSTMの入力シーケンス長を増やすとパフォーマンスが低下することを証明しています。また、テストされたビデオの最適な入力シーケンスの長さを近似することで、18個の注釈付きフレームでトレーニングされたモデルが、0.880-0.907のF1スコアを達成したことを示しています。 110トレーニングの注釈付きフレーム。
Cell event detection in cell videos is essential for monitoring of cellular behavior over extended time periods. Deep learning methods have shown great success in the detection of cell events for their ability to capture more discriminative features of cellular processes compared to traditional methods. In particular, convolutional long short-term memory (LSTM) models, which exploits the changes in cell events observable in video sequences, is the state-of-the-art for mitosis detection in cell videos. However, their limitations are the determination of the input sequence length, which is often performed empirically, and the need for a large annotated training dataset which is expensive to prepare. We propose a novel semi-supervised method of optimal length detection for mitosis detection with two key contributions: (i) an unsupervised step for learning the spatial and temporal locations of cells in their normal stage and approximating the distribution of temporal lengths of cell events and, (ii) a step of inferring, from that distribution, an optimal input sequence length and a minimal number of annotated frames for training a LSTM model for each particular video. We evaluated our method in detecting mitosis in densely packed stem cells in a phase-contrast microscopy videos. Our experimental data prove that increasing the input sequence length of LSTM can lead to a decrease in performance. Our results also show that by approximating the optimal input sequence length of the tested video, a model trained with only 18 annotated frames achieved F1-scores of 0.880-0.907, which are 10% higher than those of other published methods with a full set of 110 training annotated frames.
