時間序列的大數據: 如何選取外部變因

這裡繼續介紹實施針對預測的數據挖掘框架。它從理解業務領導的戰略目標開始。

預測(Forecasting)是預測建模(Predictive Modeling)的一個子集。其獨特之處在於,可用的數據是以時間序列的形式出現的(數據以等間隔的時間段,如周)。在進行數據挖掘項目時,交易數據(例如收銀機收據)可能不得不累積到時間序列(每日銷售收入)中,然後進一步匯總(例如,每週銷售額,季度銷售額)為時間序列層次結構。這些聚合的細化程度是一個重要的考慮因素 - 間隔會影響確定可預測性的基本模式。考慮一個每週改變價格的零售商(一些商品正在銷售,另一些正在銷售)。如果數據匯總到每月,則價格變化的細節將會丟失,從而降低其預測價值。

討論其他數據準備考慮事項,包括使用的特定累積方法。總結適用於很多事情(銷售量,收入); 平均(貨物成本)和最小值或最大值可能最適合的庫存水平。關鍵是要選擇一種最能揭示時間序列系統模式的方法。

此處強調,掌握數據知識的利益相關者可以幫助分析師理解許多可用的變量。目標是將可能的數千個候選變量減少到最多數百個(可變減少步驟),並且通過經由統計和判斷手段的變量選擇,確定它們中的哪一個最終用於預測模型。

整合數據挖掘與預測可以提供最高質量的預測。它有助於獲得數以千計的候選變量,並且可以用方便和經濟有效的方式實現。


本文提供了一個用於實現預測分析的數據挖掘的各種方法的框架和概述(參見圖2.13)。 Rey等人給出了關於過程和方法的進一步細節以及逐步應用的例子。 (2012年),應用數據挖掘預測使用 SAS。



開發具有外生變量的時間序列預測模型的過程開始於瞭解贊助項目的商業領導的戰略目標。這通常通過書面章程來保證,以記錄關鍵目標,範圍,所有權,決策,價值,交付成果,時間安排和成本。在業務主題專家的幫助下了解正在研究的系統為註重和解決正確問題提供了適當的環境。

從這裡確定哪些數據有助於描述先前定義的系統可能需要一些時間。最後,已經表明,任何數據挖掘預測或預測問題中耗費時間的步驟都是在數據處理步驟中,數據創建,提取,清理,協調和準備以進行建模。就時間序列數據而言,通常需要將數據與現有的預測問題統一到相同的時間頻率。

時間序列數據創建

上述過程中的一個關鍵要素是選擇分析的時間間隔和積累方法。不同的利益相關者團體各有愛好的時間間隔和總結方法,能夠與他們的規劃和報告流程有良好的整合。但是,時間序列數據挖掘和區間的選擇和實施方法與後續建模應該基於對以下問題的回答; 什麼樣的匯總方法能夠對數據中我們有興趣的系統模式產生最好的“視角”? 這些包括價格效應,季節性,技術週期等等。

事實上,預測利益相關者群體有時未能充分理解的,數據是在時間序列分析過程中創建的。積累(時間戳轉換成時間序列數據)和聚合(時間序列層級的創建)間隔的選擇會影響確定流入模型的數據的可預測性(或不可預測性)的基本模式。例如,如果價格每週重置一次,但所選的時間間隔是月或季度,則價格變化可能會過度平滑,並且數據的可預測性可能會降低。

此外,必須選擇向上彙整的方法。總和通常可以很好地構建對每個區間的需求單位觀察值,平均值是價格的合理選擇。然而,分析師必須了解數據,並選擇一種方法,為時間序列中需要強調的系統模式提供一個渠道。例如,圍繞歷史平均水平的庫存可能對需求影響很小。但是,非常低或很高的庫存水平可能會強烈影響客戶行為。在這種情況下,更好的累積方法可能是用給定間隔內的最大或最小觀測值。

在給定間隔和匯總方法中,通常需要處理缺失值。這可能是以預測前向,後向投射或僅僅用各種算法填充缺失數據點的形式。因此,就像在靜態數據的數據挖掘中一樣,需要一種特定的插補方法。

下面概述了三種用於時間序列設置中的輸入變量縮減和選擇的方法。在應用程序中,任何一個通常都是以迭代方式實現的。也就是說,提出了一種累積間隔和方法,並且運行給定的方法。分析師和主題專家對結果的可信度,相關強度和穩健性進行評估。考慮到可用的時間和要預測的序列值,嘗試不同的間隔和方法。最終目標是找到一個區間和積累方法,以便選擇唯一的解釋變量,這些變量的變化與Y變量密切相關,並且導致Y變量的變化。

數據挖掘的兩個階段用於預測

分析的初始階段集中在可變減少步驟。在變量縮減中,主題專業知識與各種方法相結合(見下文),以減少被考慮的X的數量,同時“解釋”或“表徵”X的變異性的關鍵來源,而不管Y。我們的目標是將一大群(可能)數千個候選X變量減少到幾百個組。了解數據的利益相關者在這裡幫助分析師理解變量如何命名和衍生,哪些變量是真正多餘的(例如,對同一事物有不同的名稱),以及假設什麼 X 在各種業務線中起關鍵作用和地區。

用於預測分析的數據挖掘的後期階段側重於變量選擇。變量選擇更依賴於算法,而這一步包含監督方法,因為現在正在考慮 Y 各種方法(一些在後面概述)評估與 Y 相關的候選 X 。如果存在相關性,則進一步的步驟集中於識別其動態結構(例如,同時期,領先或延遲)。主題專家繼續在變量選擇中發揮作用。他們在評估自動特徵選擇算法結果的強度,穩健性和合理性方面的判斷是最終的完整性檢查,有助於確保預測盡可能精確。

時間序列數據挖掘的三種方法

在時間序列數據上使用靜態變量縮減和變量選擇方法的關鍵問題之一是,為了克服不是基於時間序列的方法,建模者必須在問題中包括Xs的滯後。這大大增加了變量選擇問題的大小。例如,如果問題中存在1,000 Xs,並且數據間隔為四分之一,那麼建模者將不得不在項目的變量縮減或選擇階段為每個X添加至少四個滯後。這是因為Y和X在X,1到4的任何或全部Y正滯後處可能相關,因此現在有4,000個“變量”需要處理。

在關於靜態或“非”時間序列數據的傳統數據挖掘文獻中,許多研究人員已經提出了多種用於靜態數據的可變減少和選擇的方法(Koller和Sahami(1996),Guyon和Elisseeff(2003)等)。 )。序列相關的結構以及候選X和Y之間在各種滯後時間之間的相關性的潛力使得對時間序列數據實施傳統數據挖掘技術存在問題。

新技術對於降低維度和模型規格來說是必要的,以適應問題的獨特方面。下面,我們介紹三種已被發現對挖掘時間序列數據有效的方法。

1. 相似性分析方法可用於變量縮減和變量選擇。 Leonard等人(2008)介紹了一種分析和測量多個時間序列變量相似性的方法。與傳統的將Y(目標)與X(輸入)相似性分析相關聯的時間序列建模相結合,利用了數據排序的事實。相似性度量可以採用各種形式,但本質上是度量X和Y序列之間的距離的度量標準。可以簡單地使用相似性來獲得 Y 和X 之間的相似性,但它也可以用作變量聚類算法的輸入,然後獲得X 的簇以幫助減少 X s中的冗餘信息,從而減少X的數量。

2. 實施變量選擇的共整合方法。恩格爾和格蘭傑(2001)討論了共整合檢驗。共整合是對經濟理論的一個檢驗,從長遠來看兩個變量一起運行。衡量 Y 和 X 之間關係的傳統方法是使每個序列保持平穩(通常採用第一個差異),然後使用回歸方法確定它們是否相關。這種差異可能會導致關於長期關係[因為差異會去除趨勢]的信息丟失。差異已被證明是一個使系列平穩的嚴格方法。因此,共整合採取了不同的方式。首先,簡單的 OLS 回歸模型(稱為共整合回歸),其中X是自變量,Y是因變量,t是時間,α和β是係數,並且 e 是殘差。Dickey-Fuller檢驗或Durbin Watson檢驗的實際檢驗統計量是用於查看模型殘差是否平穩。在下面的實現示例中,使用了Dickey-Fuller測試。簡而言之,何謂共整合關係, 就是將具有單根的非定態序列做線性組合之後,新的序列可能會成為定態序列, 這些變數即具有「共整合」現象。

3. 描述了一種用於變量選擇的交互相關方法。在時間序列建模中用於理解Y和X之間關係的常用方法稱為交互相關函數(CCF)。 CCF就是簡單的皮爾遜積矩(product moment)相關性的長條形圖,用於研究與每個滯後時間的相關性。


我們已經將所有這些方法自動化,並將它們合併為一個表格,供領導建模者和主題專家小組審核(見下表)。



在這些大數據,時間序列變量減少和變量選擇問題中,我們將這三者與商業中小企業提出的優先變量列表結合為一個研究數據庫(見下圖)。

接下來,開發了各種形式的時間序列模型;但是,正如在靜態數據的數據挖掘案例中一樣,有一些特定的方法用於防止過度擬合,這有助於提供可靠的最終模型。這包括但不限於將數據分為三部分:Model 模型,hold-out 持有和 Out-of-Sample 外樣本。這類似於在靜態數據挖掘空間中訓練(vs. Model),驗證(vs. Hold-Out)和測試(vs. Out-Of-Sample)數據集。然後使用各種統計方法來選擇最終模型。一旦選擇模型,就會使用各種技術進行部署。

首先,整合數據挖掘和預測的原因只是為了盡可能提供最高質量的預測。這種方法的獨特優勢在於可以訪問數千個潛在的X,現在可以以高效和有效的方式對時間序列類型數據進行數據挖掘。最終,企業將盡可能獲得最佳解釋性預測模型的解決方案。通過各種技術現在可以使用的工具,這是可以以便捷和經濟高效的方式完成的。

既然這種性質的模型更容易構建,那麼它們可以用於其他應用,包括情景分析,優化問題以及仿真模擬問題(線性方程組以及非線性系統動力學)。總而言之,商業決策者將準備好用這些預測流程,方法和技術做出更好的決策。

註記:

1.間隔值變量的傳統插補方法,如平均值,通常對時間序列數據表現不佳。 一種簡單而有用的方法是使用簡單的時間序列類模型(如指數平滑)中的一步提前預測來推算缺失值。




留言

這個網誌中的熱門文章

標準差與 Wald 統計量

可能性比檢定(Likelihood ratio test)

Wold Decomposition Theorem