arXiv reaDer
ロボット手術における正確なジェスチャ認識のための視覚および運動学の埋め込みに関するリレーショナルグラフ学習
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery
自動外科ジェスチャ認識は、ロボット手術でインテリジェントな認知支援を可能にするために基本的に重要です。ロボット支援低侵襲手術の最近の進歩により、手術ビデオやロボット運動学などの豊富な情報を記録できるため、手術のジェスチャーを理解するための補足的な知識が得られます。ただし、既存の方法では、ユニモーダルデータのみを採用するか、マルチモーダル表現を直接連結するため、視覚データと運動学データに固有の有益な相関関係を十分に活用してジェスチャ認識の精度を高めることはできません。この点で、潜在的な特徴空間でのインタラクティブなメッセージ伝播を通じて視覚情報と運動学情報を動的に統合するためのマルチモーダルリレーショナルグラフネットワーク(つまり、MRG-Net)の新しいアプローチを提案します。具体的には、最初に、時間畳み込みネットワークとLSTMユニットを使用してビデオと運動学のシーケンスから埋め込みを抽出します。次に、これらのマルチモーダル機能のマルチリレーションを識別し、階層リレーショナルグラフ学習モジュールを介してモデル化します。私たちの方法の有効性は、公開JIGSAWSデータセットの最新の結果で実証されており、縫合と結び目のタイピングタスクの両方で現在のユニモーダルおよびマルチモーダルの方法を上回っています。さらに、2つのセンターでda Vinci Research Kit(dVRK)プラットフォームを使用して収集された社内の視覚運動学データセットでメソッドを検証し、一貫した有望なパフォーマンスを達成しました。
Automatic surgical gesture recognition is fundamentally important to enable intelligent cognitive assistance in robotic surgery. With recent advancement in robot-assisted minimally invasive surgery, rich information including surgical videos and robotic kinematics can be recorded, which provide complementary knowledge for understanding surgical gestures. However, existing methods either solely adopt uni-modal data or directly concatenate multi-modal representations, which can not sufficiently exploit the informative correlations inherent in visual and kinematics data to boost gesture recognition accuracies. In this regard, we propose a novel approach of multimodal relational graph network (i.e., MRG-Net) to dynamically integrate visual and kinematics information through interactive message propagation in the latent feature space. In specific, we first extract embeddings from video and kinematics sequences with temporal convolutional networks and LSTM units. Next, we identify multi-relations in these multi-modal features and model them through a hierarchical relational graph learning module. The effectiveness of our method is demonstrated with state-of-the-art results on the public JIGSAWS dataset, outperforming current uni-modal and multi-modal methods on both suturing and knot typing tasks. Furthermore, we validated our method on in-house visual-kinematics datasets collected with da Vinci Research Kit (dVRK) platforms in two centers, with consistent promising performance achieved.
updated: Tue Nov 03 2020 11:00:10 GMT+0000 (UTC)
published: Tue Nov 03 2020 11:00:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト