arXiv reaDer
軽量アーキテクチャを使用した自己監視型視覚表現学習
Self-Supervised Visual Representation Learning Using Lightweight Architectures
自己監視学習では、注釈がマシンによって作成されるデータセットを使用して、口実タスクを解決するようにモデルがトレーニングされます。目的は、トレーニングされた重みを転送して、ターゲットドメインでダウンストリームタスクを実行することです。画像データから特徴を抽出するための最も注目すべき口実タスクを批判的に調べ、さらにリソースに制約のあるネットワークで実験を実施します。これにより、実験と展開が高速化されます。他のすべてのパラメータを均一に保ちながら、さまざまな自己監視技術のパフォーマンスを研究します。モデルのタイプ、サイズ、バックボーンに対して行われる事前トレーニングの量を変えることによって現れるパターンを研究し、将来の研究のために比較するための基準を確立します。また、さまざまなアーキテクチャで学習された表現の品質を理解するための包括的な調査も実施しています。
In self-supervised learning, a model is trained to solve a pretext task, using a data set whose annotations are created by a machine. The objective is to transfer the trained weights to perform a downstream task in the target domain. We critically examine the most notable pretext tasks to extract features from image data and further go on to conduct experiments on resource constrained networks, which aid faster experimentation and deployment. We study the performance of various self-supervised techniques keeping all other parameters uniform. We study the patterns that emerge by varying model type, size and amount of pre-training done for the backbone as well as establish a standard to compare against for future research. We also conduct comprehensive studies to understand the quality of representations learned by different architectures.
updated: Thu Oct 21 2021 14:13:10 GMT+0000 (UTC)
published: Thu Oct 21 2021 14:13:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト