畳み込みニューラル ネットワーク (CNN) とトランスフォーマーは、コンピューター ビジョンの分野で最も広く実装されている 2 つのモデルです。ただし、前者 (後者) は主にローカル (グローバル) の特徴のみをキャプチャします。特徴の欠如によって引き起こされるモデルのパフォーマンスの制限に対処するために、制御可能なアンサンブル CNN とトランスフォーマーによる新しい分類ネットワーク CECT を開発します。 CECT は、畳み込みエンコーダ ブロック、転置畳み込みデコーダ ブロック、および変換器分類ブロックで構成されます。既存の方法とは異なり、当社の CECT は追加機能なしでマルチローカルとグローバルの両方のスケールで特徴をキャプチャできます。さらに、さまざまなスケールでの局所特徴の寄与は、提案されたアンサンブル係数を使用して制御できます。私たちは 2 つの公開された新型コロナウイルス感染症データセットに基づいて CECT を評価しており、それは既存の最先端の手法を上回っています。優れた特徴キャプチャ能力を備えた CECT は、診断アシスタントとして他の医用画像分類シナリオにも拡張できると考えられます。コードは https://github.com/NUS-Tim/CECT で入手できます。
The convolutional neural network (CNN) and transformer are two of the most widely implemented models in the computer vision field. However, the former (latter) one mainly captures local (global) features only. To address the limitation in model performance caused by the lack of features, we develop a novel classification network CECT by controllable ensemble CNN and transformer. CECT is composed of a convolutional encoder block, a transposed-convolutional decoder block, and a transformer classification block. Different from existing methods, our CECT can capture features at both multi-local and global scales without any bells and whistles. Moreover, the contribution of local features at different scales can be controlled with the proposed ensemble coefficients. We evaluate CECT on two public COVID-19 datasets and it outperforms existing state-of-the-art methods. With remarkable feature capture ability, we believe CECT can be extended to other medical image classification scenarios as a diagnosis assistant. Code is available at https://github.com/NUS-Tim/CECT.