自然言語とビジョンを組み合わせると、人工知能の分野でユニークで興味深い課題が発生します。自然言語ベースの車両検索のためのAICityチャレンジトラック5は、スマートシティのユースケースに適用される視覚情報とテキスト情報を組み合わせる問題に焦点を当てています。このホワイトペーパーでは、単一車両の追跡シーケンスを自然言語と相関させるためのモジュラーソリューションであるAll You Can Embed(AYCE)を紹介します。提案されたアーキテクチャの主な構成要素は、(i)テキスト記述の埋め込みを提供するBERT、(ii)視覚情報を埋め込むためのTransformerモデルとともに畳み込みバックボーンです。検索モデルのトレーニングでは、視覚と言語の埋め込みの間の距離測定を学習するために、トリプレットマージン損失のバリエーションが提案されます。コードはhttps://github.com/cscribano/AYCE_2021で公開されています。
Combining Natural Language with Vision represents a unique and interesting challenge in the domain of Artificial Intelligence. The AI City Challenge Track 5 for Natural Language-Based Vehicle Retrieval focuses on the problem of combining visual and textual information, applied to a smart-city use case. In this paper, we present All You Can Embed (AYCE), a modular solution to correlate single-vehicle tracking sequences with natural language. The main building blocks of the proposed architecture are (i) BERT to provide an embedding of the textual descriptions, (ii) a convolutional backbone along with a Transformer model to embed the visual information. For the training of the retrieval model, a variation of the Triplet Margin Loss is proposed to learn a distance measure between the visual and language embeddings. The code is publicly available at https://github.com/cscribano/AYCE_2021.