時系列を監視、要約、予測することは困難です。セグメンテーションは、時系列を均一な特性(平坦性、線形性、モダリティ、単調性など)を持ついくつかの間隔に編成します。スケーラビリティのために、高速線形時間アルゴリズムが必要です。人気のある区分的線形モデルは、データがどこで上昇または下降するか、そしてどのレートで決定することができます。残念ながら、データが線形モデルに従っていない場合、局所的な勾配の計算により過剰適合が生じます。各区間の多項式次数が変化する適応型時系列モデルを提案します(定数、線形など)。多くのリグレッサが与えられると、各区間のコストはその多項式の次数になります:一定の区間のコストは1個のリグレッサ、線形の区間のコストは2個のリグレッサなどです。私たちの目標は、与えられたモデルの複雑さに対してユークリッド(l_2)エラーを最小化することです。実験的に、間隔を一定または線形にすることができるモデルを調査します。合成ランダムウォーク、過去の株式市場価格、および心電図で、適応モデルは、交差検証エラーまたは実行時間を増やすことなく、区分線形モデルよりも正確なセグメンテーションを提供し、アプリケーションにより豊富な語彙を提供します。数値の安定性や実際のパフォーマンスなどの実装の問題について説明します。
Time series are difficult to monitor, summarize and predict. Segmentation organizes time series into few intervals having uniform characteristics (flatness, linearity, modality, monotonicity and so on). For scalability, we require fast linear time algorithms. The popular piecewise linear model can determine where the data goes up or down and at what rate. Unfortunately, when the data does not follow a linear model, the computation of the local slope creates overfitting. We propose an adaptive time series model where the polynomial degree of each interval vary (constant, linear and so on). Given a number of regressors, the cost of each interval is its polynomial degree: constant intervals cost 1 regressor, linear intervals cost 2 regressors, and so on. Our goal is to minimize the Euclidean (l_2) error for a given model complexity. Experimentally, we investigate the model where intervals can be either constant or linear. Over synthetic random walks, historical stock market prices, and electrocardiograms, the adaptive model provides a more accurate segmentation than the piecewise linear model without increasing the cross-validation error or the running time, while providing a richer vocabulary to applications. Implementation issues, such as numerical stability and real-world performance, are discussed.