arXiv reaDer
Capsule Networksを使用した短期間の動き予測を改善するために、スパースセマンティックレイヤーの潜在表現を活用する
Exploiting latent representation of sparse semantic layers for improved short-term motion prediction with Capsule Networks
都市環境は高度な複雑さを示しているため、自動運転車(AV)に組み込まれた安全システムが、近くのエージェントの短期的な将来の動きを正確に予測できることが非常に重要です。この問題は、追跡対象のエージェントの将来の動きを表す一連の座標を生成することとしてさらに理解できます。提案されているさまざまなアプローチは、畳み込みニューラルネットワーク(CNN)を組み合わせて、道路のラスター化されたトップダウン画像を使用して、道路構造を定義する関連する特徴(たとえば、運転可能なエリア、車線、歩道)を抽出することの大きな利点を示しています。対照的に、このペーパーでは、高解像度(HD)マップの小さな領域に対応するスパースセマンティックレイヤーの階層表現を学習するコンテキストでのカプセルネットワーク(CapsNets)の使用について説明します。マップの各領域は、エージェントの現在の位置に関して抽出される個別の幾何学的レイヤーに分解されます。 CapsNetsに基づくアーキテクチャを使用することにより、モデルは、画像内で検出された特徴間の階層関係を保持しながら、プーリング操作によって頻繁に発生する空間データの損失を防ぐことができます。公開されているデータセットnuTonomyシーンでモデルをトレーニングおよび評価し、最近公開されたメソッドと比較します。私たちのモデルは、ネットワークの全体的なサイズを大幅に削減しながら、決定論的予測に関する最近公開された作品よりも大幅に改善されていることを示しています。
As urban environments manifest high levels of complexity it is of vital importance that safety systems embedded within autonomous vehicles (AVs) are able to accurately anticipate short-term future motion of nearby agents. This problem can be further understood as generating a sequence of coordinates describing the future motion of the tracked agent. Various proposed approaches demonstrate significant benefits of using a rasterised top-down image of the road, with a combination of Convolutional Neural Networks (CNNs), for extraction of relevant features that define the road structure (eg. driveable areas, lanes, walkways). In contrast, this paper explores use of Capsule Networks (CapsNets) in the context of learning a hierarchical representation of sparse semantic layers corresponding to small regions of the High-Definition (HD) map. Each region of the map is dismantled into separate geometrical layers that are extracted with respect to the agent's current position. By using an architecture based on CapsNets the model is able to retain hierarchical relationships between detected features within images whilst also preventing loss of spatial data often caused by the pooling operation. We train and evaluate our model on publicly available dataset nuTonomy scenes and compare it to recently published methods. We show that our model achieves significant improvement over recently published works on deterministic prediction, whilst drastically reducing the overall size of the network.
updated: Tue Mar 02 2021 11:13:43 GMT+0000 (UTC)
published: Tue Mar 02 2021 11:13:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト