ビデオフィードからのアクションの認識は、特に古いハードウェアでは、自動化するのが難しい作業です。このプロジェクトには2つの目的があります。1つはAndroidスマートフォンの前面カメラからのアクションを認識することであり、もう1つはできるだけ多くのスマートフォンとAndroidバージョンをサポートすることです。これにより、GPUの有無にかかわらず携帯電話で実行できるほど小さいモデルを使用し、アクションを認識するためにカメラフィードのみを使用するように制限されます。このホワイトペーパーでは、カスタムデータセットでトレーニングされたモデルを使用して、デバイス間(専用GPUを使用する場合と使用しない場合)のYOLOアーキテクチャのパフォーマンスを比較します。また、限られたハードウェアでビデオから顔やアクションを認識する際の制限についても説明します。
Recognizing actions from a video feed is a challenging task to automate, especially so on older hardware. There are two aims for this project: one is to recognize an action from the front-facing camera on an Android phone, the other is to support as many phones and Android versions as possible. This limits us to using models that are small enough to run on mobile phones with and without GPUs, and only using the camera feed to recognize the action. In this paper we compare performance of the YOLO architecture across devices (with and without dedicated GPUs) using models trained on a custom dataset. We also discuss limitations in recognizing faces and actions from video on limited hardware.