皮膚がんは、世界で最も一般的な種類のがんの1つです。皮膚病変の診断に取り組むために、さまざまなコンピュータ支援診断システムが提案されており、それらのほとんどは、深い畳み込みニューラルネットワークに基づいています。ただし、コンピュータービジョンの最近の進歩により、多くのタスク、特にTransformerベースのネットワークで最先端の結果が得られました。コンピュータビジョンアーキテクチャ、トレーニング方法、および皮膚病変診断タスクのためのマルチモーダル機能融合の進歩を調査および評価します。実験によると、MetaBlockフュージョンを使用したPiT(0.800±0.006)、CoaT(0.780±0.024)、およびViT(0.771±0.018)バックボーンモデルは、PAD-UFES-20データセットのバランスの取れた精度メトリックで最先端の結果を達成しました。
Skin cancer is one of the most common types of cancer in the world. Different computer-aided diagnosis systems have been proposed to tackle skin lesion diagnosis, most of them based in deep convolutional neural networks. However, recent advances in computer vision achieved state-of-art results in many tasks, notably Transformer-based networks. We explore and evaluate advances in computer vision architectures, training methods and multimodal feature fusion for skin lesion diagnosis task. Experiments show that PiT (0.800 ±0.006), CoaT (0.780 ±0.024) and ViT (0.771 ±0.018) backbone models with MetaBlock fusion achieved state-of-art results for balanced accuracy metric in PAD-UFES-20 dataset.