このペーパーでは、視覚情報と聴覚情報の融合を介して複数のスピーカーを追跡する問題に対処します。追跡対象者の滑らかな軌道を正確に推定し、短期間のいずれかのモダリティの部分的または全体的な不在に対処し、音響状態を推定するために、これら2つのモダリティの補完的な性質を活用することを提案します-話すか沈黙するか-時間に沿った各追跡対象者の。潜在変数の一時的なグラフィカルモデルとして定式化された生成的な視聴覚融合(または関連付け)モデルに問題を手近に投げることを提案します。これは、過去と現在の観測を与えられた一連の連続的かつ離散的な潜在変数の後方結合分布を最大化する問題と見なすことができます。因数分解された分布で結合分布を近似する変分推論モデルを提案します。ソリューションは、閉形式の期待値最大化手順の形式を取ります。推論アルゴリズムの詳細を説明し、そのパフォーマンスを評価し、いくつかのベースラインメソッドと比較します。これらの実験は、提案された視聴覚トラッカーが、時間的に変化する人数を含む非公式の会議でうまく機能することを示しています。
In this paper we address the problem of tracking multiple speakers via the fusion of visual and auditory information. We propose to exploit the complementary nature of these two modalities in order to accurately estimate smooth trajectories of the tracked persons, to deal with the partial or total absence of one of the modalities over short periods of time, and to estimate the acoustic status -- either speaking or silent -- of each tracked person along time. We propose to cast the problem at hand into a generative audio-visual fusion (or association) model formulated as a latent-variable temporal graphical model. This may well be viewed as the problem of maximizing the posterior joint distribution of a set of continuous and discrete latent variables given the past and current observations, which is intractable. We propose a variational inference model which amounts to approximate the joint distribution with a factorized distribution. The solution takes the form of a closed-form expectation maximization procedure. We describe in detail the inference algorithm, we evaluate its performance and we compare it with several baseline methods. These experiments show that the proposed audio-visual tracker performs well in informal meetings involving a time-varying number of people.