手術 AI の最近の進歩の 1 つは、手術活動を (器具、動詞、標的) の 3 つ組として認識することです。コンピュータ支援介入に関する詳細な情報を提供するにもかかわらず、現在のトリプレット認識アプローチは単一フレーム機能のみに依存しています。以前のフレームからの一時的な手がかりを利用すると、ビデオからの外科手術トリプレットの認識が向上します。この論文では、Rendezvous in Time (RiT) を提案します。これは、最先端のモデルである Rendezvous を時間モデリングで拡張したディープ ラーニング モデルです。動詞にさらに焦点を当てて、RiT は現在および過去のフレームの接続性を調査し、トリプレット認識を強化するための一時的な注意ベースの機能を学習します。挑戦的な外科用トリプレット データセットである CholecT45 に関する提案を検証し、(楽器、動詞) などの動詞を含む他の相互作用とともに、動詞とトリプレットの認識の改善を示します。定性的な結果は、RiT が最新技術よりもほとんどのトリプレット インスタンスに対してよりスムーズな予測を生成することを示しています。ビデオ フレームの時間的融合を活用して外科的処置の進化をモデル化し、外科的トリプレット認識の利点を活用する、新しい注意ベースのアプローチを提示します。
One of the recent advances in surgical AI is the recognition of surgical activities as triplets of (instrument, verb, target). Albeit providing detailed information for computer-assisted intervention, current triplet recognition approaches rely only on single frame features. Exploiting the temporal cues from earlier frames would improve the recognition of surgical action triplets from videos. In this paper, we propose Rendezvous in Time (RiT) - a deep learning model that extends the state-of-the-art model, Rendezvous, with temporal modeling. Focusing more on the verbs, our RiT explores the connectedness of current and past frames to learn temporal attention-based features for enhanced triplet recognition. We validate our proposal on the challenging surgical triplet dataset, CholecT45, demonstrating an improved recognition of the verb and triplet along with other interactions involving the verb such as (instrument, verb). Qualitative results show that the RiT produces smoother predictions for most triplet instances than the state-of-the-arts. We present a novel attention-based approach that leverages the temporal fusion of video frames to model the evolution of surgical actions and exploit their benefits for surgical triplet recognition.