動物プランクトン画像は、他の多くの実世界のデータタイプと同様に、効果的な分類システムの設計を困難にする固有の特性を持っています。たとえば、実際の設定で遭遇するクラスの数は潜在的に非常に多く、クラスはあいまいまたは重複する可能性があります。さらに、分類法の選択は、研究者間および機関間で異なることがよくあります。標準的な分類器アーキテクチャを使用したベンチマークでは高い精度が達成されていますが、出力が生態系の評価とモニタリングで使用される場合、柔軟性のない分類スキームによって引き起こされるバイアスは深刻な影響を与える可能性があります。ここでは、動物プランクトン画像のベクトル埋め込みを構築するために、深い畳み込みネットワークを使用することを提案します。システムは、各画像を高次元ユークリッド空間にマッピング(埋め込み)し、ベクトル間の距離が画像間の意味関係を反映するようにします。埋め込みを使用して、特定の分類子に匹敵する精度で分類を導出できるが、同時にデータの重要な構造を明らかにできることを示します。さらに、システムによって以前は見えなかった新しいクラスに埋め込みを適用し、そのような場合の分類パフォーマンスを評価します。従来のニューラルネットワーク分類器は、クラスがアプリオリに明確に定義されており、十分に大きなラベル付きデータセットが利用できる場合にうまく機能します。生態学や他の多くの分野での実際のケースでは、これは当てはまりません。ここで紹介するベクトル埋め込み方法は、より適切なアプローチであると主張します。
Zooplankton images, like many other real world data types, have intrinsic properties that make the design of effective classification systems difficult. For instance, the number of classes encountered in practical settings is potentially very large, and classes can be ambiguous or overlap. In addition, the choice of taxonomy often differs between researchers and between institutions. Although high accuracy has been achieved in benchmarks using standard classifier architectures, biases caused by an inflexible classification scheme can have profound effects when the output is used in ecosystem assessments and monitoring. Here, we propose using a deep convolutional network to construct a vector embedding of zooplankton images. The system maps (embeds) each image into a high-dimensional Euclidean space so that distances between vectors reflect semantic relationships between images. We show that the embedding can be used to derive classifications with comparable accuracy to a specific classifier, but that it simultaneously reveals important structures in the data. Furthermore, we apply the embedding to new classes previously unseen by the system, and evaluate its classification performance in such cases. Traditional neural network classifiers perform well when the classes are clearly defined a priori and have sufficiently large labeled data sets available. For practical cases in ecology as well as in many other fields this is not the case, and we argue that the vector embedding method presented here is a more appropriate approach.