arXiv reaDer
長いカプセル内視鏡ビデオにおける弱く監視された異常局在化のためのグラフ畳み込みニューラルネットワーク
Graph Convolution Neural Network For Weakly Supervised Abnormality Localization In Long Capsule Endoscopy Videos
長いビデオでの一時的なアクティビティのローカリゼーションは重要な問題です。長いワイヤレスカプセル内視鏡(WCE)ビデオのフレームレベルのラベルを取得するコストは法外です。この論文では、弱いビデオレベルラベルのみを使用して、長いWCEビデオのエンドツーエンドの時間的異常ローカリゼーションを提案します。医師は、カプセル内視鏡検査(CE)を非外科的かつ非侵襲的な方法として使用して、病気や異常を診断するために消化管全体を検査します。 CEは従来の内視鏡検査手順に革命をもたらしましたが、1回のCE検査は最大8時間続き、最大100,000フレームを生成する可能性があります。医師は、関連する異常を捉えているフレームを特定するために、ビデオ全体をフレームごとに確認する必要があります。これは、たった1つのフレームである場合もあります。この非常に高いレベルの冗長性を考えると、長いCEビデオの分析は非常に面倒で時間がかかり、エラーが発生しやすくなります。この論文は、弱いビデオラベルのみを使用して、長いビデオで関心のある異常をキャプチャするターゲットフレームのエンドツーエンドのローカリゼーションのための新しいマルチステップ方法を提示します。最初に、変化点検出技術を使用して自動時間セグメンテーションを開発し、ビデオを均一で均質で識別可能なセグメントに時間的にセグメント化しました。次に、グラフ畳み込みニューラルネットワーク(GCNN)を使用して、各ビデオセグメントの表現を学習しました。弱いビデオセグメントラベルを使用して、GCNNモデルをトレーニングし、各ビデオセグメントに少なくとも1つの異常なフレームが含まれている場合に異常として認識するようにしました。最後に、トレーニングされたGCNNモデルのパラメーターを活用して、ネットワークの最終レイヤーを一時プールレイヤーに置き換え、各異常ビデオセグメント内の関連する異常フレームをローカライズしました。私たちの方法は、グラフ分類タスクで89.9%の精度を達成し、異常フレームローカリゼーションタスクで97.5%の特異性を達成しました。
Temporal activity localization in long videos is an important problem. The cost of obtaining frame level label for long Wireless Capsule Endoscopy (WCE) videos is prohibitive. In this paper, we propose an end-to-end temporal abnormality localization for long WCE videos using only weak video level labels. Physicians use Capsule Endoscopy (CE) as a non-surgical and non-invasive method to examine the entire digestive tract in order to diagnose diseases or abnormalities. While CE has revolutionized traditional endoscopy procedures, a single CE examination could last up to 8 hours generating as much as 100,000 frames. Physicians must review the entire video, frame-by-frame, in order to identify the frames capturing relevant abnormality. This, sometimes could be as few as just a single frame. Given this very high level of redundancy, analyzing long CE videos can be very tedious, time consuming and also error prone. This paper presents a novel multi-step method for an end-to-end localization of target frames capturing abnormalities of interest in the long video using only weak video labels. First we developed an automatic temporal segmentation using change point detection technique to temporally segment the video into uniform, homogeneous and identifiable segments. Then we employed Graph Convolutional Neural Network (GCNN) to learn a representation of each video segment. Using weak video segment labels, we trained our GCNN model to recognize each video segment as abnormal if it contains at least a single abnormal frame. Finally, leveraging the parameters of the trained GCNN model, we replaced the final layer of the network with a temporal pool layer to localize the relevant abnormal frames within each abnormal video segment. Our method achieved an accuracy of 89.9% on the graph classification task and a specificity of 97.5% on the abnormal frames localization task.
updated: Mon Oct 18 2021 09:00:24 GMT+0000 (UTC)
published: Mon Oct 18 2021 09:00:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト