このペーパーでは、ビデオデータのみからのモーションキューを使用した外科的ジェスチャー認識のオープンリサーチの問題に対処します。 Simonyanらによって最初に提案されたオプティカルフローConvNetを採用します。SimonyanはRGBフレームと高密度オプティカルフローの両方を使用しますが、外科用ジェスチャー認識におけるモーションの役割を強調するために入力として高密度オプティカルフロー表現のみを使用し、堅牢なものとして提示します。キネマティックデータの代替。また、クロスモダリティの事前トレーニングでモデルを初期化することにより、オプティカルフローConvNetの制限の1つを克服しています。外科的ジェスチャー認識に取り組む有望な研究の多くは、追加の記録デバイスを必要とする運動学的データに大きく依存しています。私たちの知る限り、これは、密なオプティカルフロー情報のみを使用した外科的ジェスチャー認識に取り組む最初の論文です。さらに、JIGSAWSデータセットで競争力のある結果が得られます。さらに、私たちのモデルは標準偏差が少なく、より堅牢な結果を実現します。これは、オプティカルフロー情報が、外科的ジェスチャーの認識のための運動学的データの代替として使用できることを示唆しています。
In this paper, we address the open research problem of surgical gesture recognition using motion cues from video data only. We adapt Optical flow ConvNets initially proposed by Simonyan et al.. While Simonyan uses both RGB frames and dense optical flow, we use only dense optical flow representations as input to emphasize the role of motion in surgical gesture recognition, and present it as a robust alternative to kinematic data. We also overcome one of the limitations of Optical flow ConvNets by initializing our model with cross modality pre-training. A large number of promising studies that address surgical gesture recognition highly rely on kinematic data which requires additional recording devices. To our knowledge, this is the first paper that addresses surgical gesture recognition using dense optical flow information only. We achieve competitive results on JIGSAWS dataset, moreover, our model achieves more robust results with less standard deviation, which suggests optical flow information can be used as an alternative to kinematic data for the recognition of surgical gestures.