Bilateral-ViT for Robust Fovea Localization
中心窩は、網膜の重要な解剖学的ランドマークです。中心窩の位置を検出することは、多くの網膜疾患の分析に不可欠です。ただし、中心窩領域はしばしばぼやけて見えるため、堅牢な中心窩の局在化は依然として困難な問題であり、網膜疾患はその外観をさらに不明瞭にする可能性があります。この論文は、中心窩領域の内側と外側の両方の情報を統合して、中心窩のロバストな位置特定を実現する新しいビジョントランスフォーマー(ViT)アプローチを提案します。 Bilateral-Vision-Transformer(Bilateral-ViT)という名前の提案されたネットワークは、眼底画像全体にわたるグローバルコンテキストを統合するためのトランスベースのメインネットワークブランチと、血管の構造を明示的に組み込むための血管ブランチの2つのネットワークブランチで構成されます。その後、両方のネットワークブランチからエンコードされた機能は、カスタマイズされたマルチスケール機能融合(MFF)モジュールとマージされます。私たちの包括的な実験は、提案されたアプローチが病気の画像に対してはるかに堅牢であり、MessidorとPALMの両方のデータセットで新しい最先端技術を確立することを示しています。
The fovea is an important anatomical landmark of the retina. Detecting the location of the fovea is essential for the analysis of many retinal diseases. However, robust fovea localization remains a challenging problem, as the fovea region often appears fuzzy, and retina diseases may further obscure its appearance. This paper proposes a novel vision transformer (ViT) approach that integrates information both inside and outside the fovea region to achieve robust fovea localization. Our proposed network named Bilateral-Vision-Transformer (Bilateral-ViT) consists of two network branches: a transformer-based main network branch for integrating global context across the entire fundus image and a vessel branch for explicitly incorporating the structure of blood vessels. The encoded features from both network branches are subsequently merged with a customized multi-scale feature fusion (MFF) module. Our comprehensive experiments demonstrate that the proposed approach is significantly more robust for diseased images and establishes the new state of the arts on both Messidor and PALM datasets.
updated: Tue Oct 19 2021 11:26:04 GMT+0000 (UTC)
published: Tue Oct 19 2021 11:26:04 GMT+0000 (UTC)
