皮膚病変の正確で偏りのない検査は、皮膚がんの早期診断と治療に不可欠です。皮膚の画像は、さまざまなデバイスを使用してさまざまな皮膚の色の患者から収集されるため、皮膚病変の視覚的特徴は大きく異なります。最近の研究では、早期診断のために画像を分類するために、アンサンブル畳み込みニューラルネットワーク(CNN)が開発されました。ただし、CNNのネットワーク構造は重量があり、コンテキスト情報を無視しているため、CNNの実際の使用は制限されています。ビジョントランスフォーマー(ViT)は、自己注意メカニズムによってグローバル機能を学習しますが、モデルサイズも比較的大きくなります(100M以上)。これらの制限に対処するために、階層的で自己注意を備えた軽量で効果的なニューラルネットワークであるHierAttnを紹介します。 HierAttnは、多段階の階層型ネットワークによるローカルおよびグローバル機能の学習に基づく新しい戦略を適用します。 HierAttnの有効性は、ダーモスコピー画像データセットISIC2019とスマートフォン写真データセットPAD-UFES-20を使用して評価されました。実験結果は、HierAttnがMobileNetV3やMobileViTを含む最先端のモバイルネットワークの中で最高のトップ1精度とAUCを達成することを示しています。コードはhttps://github.com/anthonyweidai/HierAttnで入手できます。
An accurate and unbiased examination of skin lesions is critical for the early diagnosis and treatment of skin cancers. The visual feature of the skin lesions varies significantly because skin images are collected from patients with different skin colours by using various devices. Recent studies have developed ensembled convolutional neural networks (CNNs) to classify the images for early diagnosis. However, the practical use of CNNs is limited because their network structures are heavyweight and neglect contextual information. Vision transformers (ViTs) learn the global features by self-attention mechanisms, but they also have comparatively large model sizes (more than 100M). To address these limitations, we introduce HierAttn, a lite and effective neural network with hierarchical and self attention. HierAttn applies a novel strategy based on learning local and global features by a multi-stage and hierarchical network. The efficacy of HierAttn was evaluated by using the dermoscopy images dataset ISIC2019 and smartphone photos dataset PAD-UFES-20. The experimental results show that HierAttn achieves the best top-1 accuracy and AUC among state-of-the-art mobile networks, including MobileNetV3 and MobileViT. The code is available at https://github.com/anthonyweidai/HierAttn.