arXiv reaDer
内視鏡領域のプレトレーニングが意味をなすかどうか、またその場合はいつですか?
Whether and When does Endoscopy Domain Pretraining Make Sense?
自動化された内視鏡ビデオ分析は、手術中に外科医を支援することを主な目的とする、医療用コンピューター ビジョンにおける困難なタスクです。難しさは、手術シーンの複雑さと、十分な量の注釈付きデータの不足から生じます。近年、大規模な事前トレーニングは、自然言語処理とコンピューター ビジョンのコミュニティで大きな成功を収めています。これらのアプローチにより、医療分野で常に懸念される注釈付きデータの必要性が軽減されます。ただし、内視鏡ビデオ理解に関するほとんどの作業は、自然画像で事前トレーニングされたモデルを使用しており、事前トレーニングと微調整の間にドメイン ギャップが生じています。この作業では、ダウンストリームの目的に基づいて、内視鏡ドメイン固有の事前トレーニングの必要性を調査します。この目的のために、まず、公開されている 9 つの最小侵襲手術 (MIS) データセットから抽出された、公開されている最大の内視鏡画像コーパスである Endo700k を収集します。 Endo700k は、700,000 を超える注釈のない生の画像で構成されています。次に、内視鏡検査の事前学習済みのビジョン トランスフォーマー (ViT) である EndoViT を紹介します。アブレーションを通じて、ドメイン固有の事前トレーニングは、アクション トリプレット検出などのより複雑なダウンストリーム タスクに特に有益であり、外科的位相認識などの単純なタスクには効果が低く、不要でさえあることを示しています。この方向でのさらなる研究を促進するために、受け入れ時にコードと事前トレーニング済みモデルの両方をリリースします。
Automated endoscopy video analysis is a challenging task in medical computer vision, with the primary objective of assisting surgeons during procedures. The difficulty arises from the complexity of surgical scenes and the lack of a sufficient amount of annotated data. In recent years, large-scale pretraining has shown great success in natural language processing and computer vision communities. These approaches reduce the need for annotated data, which is always a concern in the medical domain. However, most works on endoscopic video understanding use models pretrained on natural images, creating a domain gap between pretraining and finetuning. In this work, we investigate the need for endoscopy domain-specific pretraining based on downstream objectives. To this end, we first collect Endo700k, the largest publicly available corpus of endoscopic images, extracted from nine public Minimally Invasive Surgery (MIS) datasets. Endo700k comprises more than 700,000 unannotated raw images. Next, we introduce EndoViT, an endoscopy pretrained Vision Transformer (ViT). Through ablations, we demonstrate that domain-specific pretraining is particularly beneficial for more complex downstream tasks, such as Action Triplet Detection, and less effective and even unnecessary for simpler tasks, such as Surgical Phase Recognition. We will release both our code and pretrained models upon acceptance to facilitate further research in this direction.
updated: Thu Mar 30 2023 18:01:26 GMT+0000 (UTC)
published: Thu Mar 30 2023 18:01:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト