arXiv reaDer
2D でビジュアルクエリをローカライズするためのベイジアン意思決定
Bayesian Decision Making to Localize Visual Queries in 2D
このレポートでは、EGO4D 2023 Visual Query 2D Localization Challenge に対する当社のアプローチについて説明します。私たちの方法は、ビジュアルクロップとベースラインの地域提案ネットワーク(RPN)から提案された境界ボックスの間の類似性が高いために発生する誤検知(FP)の数を減らすことを目的としています。私たちの方法では、変換器を使用して、事前の信念として使用される高次元での類似性を判断します。次に、その結​​果を、測定値として機能するシャム ヘッドからの低次元の類似性と組み合わせて事後分布を生成し、提案された境界ボックスとビジュアル クロップの最終的な類似性を決定するために使用されます。私たちのコードは https://github.com/sm-asjad/EGO4D_VQ2D ここで公開されています。
This report describes our approach for the EGO4D 2023 Visual Query 2D Localization Challenge. Our method aims to reduce the number of False Positives (FP) that occur because of high similarity between the visual crop and the proposed bounding boxes from the baseline's Region Proposal Network (RPN). Our method uses a transformer to determine similarity in higher dimensions which is used as our prior belief. The results are then combined together with the similarity in lower dimensions from the Siamese Head, acting as our measurement, to generate a posterior which is then used to determine the final similarity of the visual crop with the proposed bounding box. Our code is publicly available https://github.com/s-m-asjad/EGO4D_VQ2Dhere.
updated: Sun May 28 2023 02:38:53 GMT+0000 (UTC)
published: Sun May 28 2023 02:38:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト