心臓超音波画像は、さまざまな心臓病を診断するために使用されます。一般的な分析パイプラインには、専門の臨床医によるビデオフレームの手動処理が含まれます。これは、観察者内および観察者間の変動に悩まされています。残留オートエンコーダネットワークとトークン分類に適合したBERTモデルに基づくトランスアーキテクチャを使用した超音波ビデオ分析への新しいアプローチを提案します。これにより、任意の長さのビデオを処理できます。モデルを拡張末期(ES)および拡張末期(ED)フレーム検出のタスクと、左心室駆出率の自動計算に適用します。任意の長さのビデオで、ESで3.36フレーム、EDで7.17フレームの平均フレーム距離を達成します。私たちのエンドツーエンドの学習可能なアプローチは、ビデオあたり0.15秒でMAEが5.95、R ^ 2が0.52の駆出率を推定できます。これは、セグメンテーションが駆出率を予測する唯一の方法ではないことを示しています。コードとモデルはhttps://github.com/HReynaud/UVTで入手できます。
Cardiac ultrasound imaging is used to diagnose various heart diseases. Common analysis pipelines involve manual processing of the video frames by expert clinicians. This suffers from intra- and inter-observer variability. We propose a novel approach to ultrasound video analysis using a transformer architecture based on a Residual Auto-Encoder Network and a BERT model adapted for token classification. This enables videos of any length to be processed. We apply our model to the task of End-Systolic (ES) and End-Diastolic (ED) frame detection and the automated computation of the left ventricular ejection fraction. We achieve an average frame distance of 3.36 frames for the ES and 7.17 frames for the ED on videos of arbitrary length. Our end-to-end learnable approach can estimate the ejection fraction with a MAE of 5.95 and R^2 of 0.52 in 0.15s per video, showing that segmentation is not the only way to predict ejection fraction. Code and models are available at https://github.com/HReynaud/UVT.