arXiv reaDer
超音波ビデオによる弱監視下頸動脈狭窄のグレーディング用のインフレート 3D 畳み込みトランスフォーマー
Inflated 3D Convolution-Transformer for Weakly-supervised Carotid Stenosis Grading with Ultrasound Videos
頸動脈超音波検査(US)による血管の最も狭い位置の位置特定と、それに対応する血管および残存血管の描写は、臨床現場での頸動脈狭窄の等級付け(CSG)に不可欠です。ただし、プラークと時間的変動の境界が曖昧であるため、パイプラインは時間がかかり、困難です。この手順を自動化するには、通常、多数の手動による描写が必要ですが、これは手間がかかるだけでなく、注釈付けの難しさを考慮すると信頼性も高くありません。この研究では、自動 CSG のための最初のビデオ分類フレームワークを紹介します。私たちの貢献は 3 つあります。まず、面倒で信頼性の低いアノテーションの要件を回避するために、弱く監視された CSG 用の斬新で効果的なビデオ分類ネットワークを提案します。次に、モデルのトレーニングを容易にするために、ネットワークにインフレーション戦略を採用します。これにより、事前トレーニングされた 2D 畳み込み重みをネットワーク内の 3D 対応物に適応させることができます。このようにして、既存の事前トレーニングされた大規模モデルをネットワークの効果的なウォーム スタートとして使用できます。第三に、ビデオの特徴識別を強化するために、空間的および時間的次元内および空間的次元間でのグローバルな依存関係をモデル化および統合するための新しい注意誘導型多次元融合 (AMDF) トランスフォーマー エンコーダを提案します。設計。当社のアプローチは、臨床的に収集された大規模な頸動脈米国ビデオ データセットで広範囲に検証されており、強力な競合他社と比較して最先端のパフォーマンスを実証しています。
Localization of the narrowest position of the vessel and corresponding vessel and remnant vessel delineation in carotid ultrasound (US) are essential for carotid stenosis grading (CSG) in clinical practice. However, the pipeline is time-consuming and tough due to the ambiguous boundaries of plaque and temporal variation. To automatize this procedure, a large number of manual delineations are usually required, which is not only laborious but also not reliable given the annotation difficulty. In this study, we present the first video classification framework for automatic CSG. Our contribution is three-fold. First, to avoid the requirement of laborious and unreliable annotation, we propose a novel and effective video classification network for weakly-supervised CSG. Second, to ease the model training, we adopt an inflation strategy for the network, where pre-trained 2D convolution weights can be adapted into the 3D counterpart in our network. In this way, the existing pre-trained large model can be used as an effective warm start for our network. Third, to enhance the feature discrimination of the video, we propose a novel attention-guided multi-dimension fusion (AMDF) transformer encoder to model and integrate global dependencies within and across spatial and temporal dimensions, where two lightweight cross-dimensional attention mechanisms are designed. Our approach is extensively validated on a large clinically collected carotid US video dataset, demonstrating state-of-the-art performance compared with strong competitors.
updated: Tue Jun 06 2023 08:55:47 GMT+0000 (UTC)
published: Mon Jun 05 2023 02:50:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト