自動外科ジェスチャ認識は、ロボット手術でインテリジェントな認知支援を可能にするために基本的に重要です。ロボット支援低侵襲手術の最近の進歩により、手術ビデオやロボット運動学などの豊富な情報を記録できるため、手術のジェスチャーを理解するための補足的な知識が得られます。ただし、既存の方法では、ユニモーダルデータのみを採用するか、マルチモーダル表現を直接連結するため、視覚データと運動学データに固有の有益な相関関係を十分に活用してジェスチャ認識の精度を高めることはできません。この点で、潜在的な特徴空間でのインタラクティブなメッセージ伝播を通じて視覚情報と運動学情報を動的に統合するためのマルチモーダルリレーショナルグラフネットワーク(つまり、MRG-Net)の新しいオンラインアプローチを提案します。具体的には、最初に、時間畳み込みネットワークとLSTMユニットを使用してビデオと運動学のシーケンスから埋め込みを抽出します。次に、これらのマルチモーダル埋め込みのマルチリレーションを識別し、階層リレーショナルグラフ学習モジュールを通じてそれらを活用します。私たちの方法の有効性は、公開JIGSAWSデータセットの最新の結果で実証されており、縫合と結び目のタイピングタスクの両方で現在のユニモーダルおよびマルチモーダルの方法を上回っています。さらに、2つのセンターでda Vinci Research Kit(dVRK)プラットフォームを使用して収集された社内の視覚運動学データセットでメソッドを検証し、一貫した有望なパフォーマンスを達成しました。
Automatic surgical gesture recognition is fundamentally important to enable intelligent cognitive assistance in robotic surgery. With recent advancement in robot-assisted minimally invasive surgery, rich information including surgical videos and robotic kinematics can be recorded, which provide complementary knowledge for understanding surgical gestures. However, existing methods either solely adopt uni-modal data or directly concatenate multi-modal representations, which can not sufficiently exploit the informative correlations inherent in visual and kinematics data to boost gesture recognition accuracies. In this regard, we propose a novel online approach of multi-modal relational graph network (i.e., MRG-Net) to dynamically integrate visual and kinematics information through interactive message propagation in the latent feature space. In specific, we first extract embeddings from video and kinematics sequences with temporal convolutional networks and LSTM units. Next, we identify multi-relations in these multi-modal embeddings and leverage them through a hierarchical relational graph learning module. The effectiveness of our method is demonstrated with state-of-the-art results on the public JIGSAWS dataset, outperforming current uni-modal and multi-modal methods on both suturing and knot typing tasks. Furthermore, we validated our method on in-house visual-kinematics datasets collected with da Vinci Research Kit (dVRK) platforms in two centers, with consistent promising performance achieved.