arXiv reaDer
等式マルチビューネットワーク
Equivariant Multi-View Networks
  3Dビジョンタスクへのいくつかの一般的なアプローチは、自然画像で事前にトレーニングされたディープニューラルネットワークで入力の複数のビューを個別に処理し、すべてのビューで1回のプーリングを通じてビュー順列不変性を実現します。この操作は重要な情報を破棄し、準グローバルな記述子につながると主張します。この論文では、回転グループの個別のサブグループで畳み込みが実行される複数ビュー集約へのグループ畳み込みアプローチを提案します。これにより、最後の層。さらにこの考え方を発展させて、回転グループのより小さな個別の均一空間で動作します。ここでは、極ビュー表現を使用して、入力ビューの数分の一だけで等分散を維持します。いくつかの大規模な3D形状検索タスクに最新技術を設定し、パノラマシーン分類への追加のアプリケーションを示します。
Several popular approaches to 3D vision tasks process multiple views of the input independently with deep neural networks pre-trained on natural images, achieving view permutation invariance through a single round of pooling over all views. We argue that this operation discards important information and leads to subpar global descriptors. In this paper, we propose a group convolutional approach to multiple view aggregation where convolutions are performed over a discrete subgroup of the rotation group, enabling, thus, joint reasoning over all views in an equivariant (instead of invariant) fashion, up to the very last layer. We further develop this idea to operate on smaller discrete homogeneous spaces of the rotation group, where a polar view representation is used to maintain equivariance with only a fraction of the number of input views. We set the new state of the art in several large scale 3D shape retrieval tasks, and show additional applications to panoramic scene classification.
updated: Sun Oct 27 2019 14:48:43 GMT+0000 (UTC)
published: Mon Apr 01 2019 17:58:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト