arXiv reaDer
バイラテラル-ロバストな中心窩ローカリゼーションのためのViT
Bilateral-ViT for Robust Fovea Localization
中心窩は、網膜の重要な解剖学的ランドマークです。中心窩の位置を検出することは、多くの網膜疾患の分析に不可欠です。ただし、中心窩領域はしばしばぼやけて見えるため、中心窩の局所化は依然として困難な問題であり、網膜疾患はその外観をさらに不明瞭にする可能性があります。このホワイトペーパーでは、中心窩領域の内側と外側の両方の情報を統合して中心窩のローカリゼーションを確実に実現する、新しいVision Transformer(ViT)アプローチを提案します。 Bilateral-Vision-Transformer(Bilateral-ViT)という名前の提案されたネットワークは、2つのネットワークブランチで構成されています。眼底画像全体にわたってグローバルコンテキストを統合するためのトランスベースのメインネットワークブランチと、血管の構造を明示的に組み込むための血管ブランチです。 。その後、両方のネットワークブランチからエンコードされた機能は、カスタマイズされたマルチスケール機能融合(MFF)モジュールとマージされます。私たちの包括的な実験は、提案されたアプローチが病気の画像に対してはるかに堅牢であることを示し、MessidorおよびPALMデータセットを使用して新しい最先端技術を確立します。
The fovea is an important anatomical landmark of the retina. Detecting the location of the fovea is essential for the analysis of many retinal diseases. However, robust fovea localization remains a challenging problem, as the fovea region often appears fuzzy, and retina diseases may further obscure its appearance. This paper proposes a novel Vision Transformer (ViT) approach that integrates information both inside and outside the fovea region to achieve robust fovea localization. Our proposed network, named Bilateral-Vision-Transformer (Bilateral-ViT), consists of two network branches: a transformer-based main network branch for integrating global context across the entire fundus image and a vessel branch for explicitly incorporating the structure of blood vessels. The encoded features from both network branches are subsequently merged with a customized Multi-scale Feature Fusion (MFF) module. Our comprehensive experiments demonstrate that the proposed approach is significantly more robust for diseased images and establishes the new state of the arts using the Messidor and PALM datasets.
updated: Fri Mar 04 2022 03:44:25 GMT+0000 (UTC)
published: Tue Oct 19 2021 11:26:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト