この論文では、静止画像またはビデオフレーム内のオブジェクトの数を自動的に推定する視覚的なカウントタスクを調査および強化しました。最近、関心が高まっているため、科学界からいくつかのCNNベースのソリューションが提案されています。これらの人工ニューラルネットワークは、生の視覚データから効果的な表現を自動的に学習する方法を提供し、さまざまな照明やオブジェクトのスケールなど、このタスクを特徴付ける典型的な課題に対処するためにうまく利用できます。しかし、これらの困難とは別に、CNNの採用における他のいくつかの重大な制限をターゲットにして、これらの欠点によって特に影響を受けることが判明したカウントタスクのコンテキストで実験的に評価したソリューションを提案しました。特に、現在のCNNベースのソリューションのトレーニングに必要なデータの不足に関連する問題に取り組みました。ラベル付けの予算が限られていることを考えると、データの不足は依然として未解決の問題を表しており、特に、ラベル付けするオブジェクトが画像ごとに数千であるカウントなどのタスクで明らかです。具体的には、トレーニングラベルが自動的に収集される仮想環境から収集された合成データセットを紹介しました。トレーニングとテストのデータ配布の間に存在するドメインギャップを緩和することを目的としたドメイン適応戦略を提案しました。複数のアノテーターによってラベル付けされたデータセットを特徴付ける冗長な情報を利用するカウント戦略を提示しました。さらに、限られた電力リソースの環境でCNN技術を採用することから生じるエンジニアリングの課題に取り組みました。組み込みビジョンシステムに直接搭載された車両をカウントするためのソリューションを紹介しました。最後に、私は、個人および集団の人間の安全規則を監視するのに役立ついくつかのタスクを実行できる組み込みモジュラーコンピュータービジョンベースのシステムを設計しました。
In this thesis, I investigated and enhanced the visual counting task, which automatically estimates the number of objects in still images or video frames. Recently, due to the growing interest in it, several CNN-based solutions have been suggested by the scientific community. These artificial neural networks provide a way to automatically learn effective representations from raw visual data and can be successfully employed to address typical challenges characterizing this task, such as different illuminations and object scales. But apart from these difficulties, I targeted some other crucial limitations in the adoption of CNNs, proposing solutions that I experimentally evaluated in the context of the counting task which turns out to be particularly affected by these shortcomings. In particular, I tackled the problem related to the lack of data needed for training current CNN-based solutions. Given that the budget for labeling is limited, data scarcity still represents an open problem, particularly evident in tasks such as the counting one, where the objects to be labeled are thousands per image. Specifically, I introduced synthetic datasets gathered from virtual environments, where the training labels are automatically collected. I proposed Domain Adaptation strategies aiming at mitigating the domain gap existing between the training and test data distributions. I presented a counting strategy where I took advantage of the redundant information characterizing datasets labeled by multiple annotators. Moreover, I tackled the engineering challenges coming out of the adoption of CNN techniques in environments with limited power resources. I introduced solutions for counting vehicles directly onboard embedded vision systems. Finally, I designed an embedded modular Computer Vision-based system that can carry out several tasks to help monitor individual and collective human safety rules.