時間序列大數據
接下來展示瞭如何將數據挖掘方法應用於大規模預測,其中可能需要預測數千個系列,以及數千個可能的解釋變量。
數據挖掘不適用於單變量預測方法,如指數平滑法,其中時間序列本身的值(例如,每週銷售額)是唯一使用的數據,也就是說沒有解釋變量。然而,對於包含解釋變量(例如價格,廣告,經濟狀況,天氣等)的迴歸模型和其他方法,數據挖掘可用於識別要包含在模型中的最相關變量。本文包括來自政府和商業來源的可用時間序列數據集列表。許多數據服務都是免費的,並且有系統可以自動將外部時間序列加載到組織的內部數據庫中。
數據挖掘過程中也有一些有用的參考,稱為變量或特徵選擇,即將多個候選解釋變量減少到有限數量以包含在預測模型中。
介紹,價值主張和先決條件
大數據對不同的人意味著不同的事物。在預測的背景下,精明的決策者需要設法從大數據中獲取價值。用於預測的數據挖掘,將為業務決策者提供了機會,隨時可用的內部和外部時間序列數據的眾多來源,利用它們到那些可直接影響盈利能力的可運作的策略。決定做什麼,什麼時候做,以及是誰來做的一個複雜的過程。了解哪些因素推動需求,以及這些因素(例如原材料,物流,勞動力等)如何與生產過程,或與需求相互作用並隨時間變化而改變,這些都是在此背景下可獲得價值的關鍵。
面向靜態類型數據(數據不具有時間序列框架)的傳統數據挖掘過程,方法和技術在過去的四分之一世紀已經大大增加(Fayyad et al。(1996),Cabena et al。(1998), Berry(2000),Pyle(2003),Duling和Thompson(2005),Rey和Kalos(2005),Kurgan和Musilek(2006),Han等人(2012))。這些參考文獻談到了這個過程以及無數旨在建立沒有時間序列框架的數據預測模型的方法。推動本文的想法是,在數據挖掘的跨領域概念對預測具有重要價值。也就是說,隨著時間的推移使用基於時間序列的方法挖掘收集的數據。
這個價值有很多種形式。 很顯然,在庫存成本降低及收入優化的角度來幫助他們,在決定什麼時候、做什麼、以及誰可以的時候更加準確,更不用說在客戶的滿意度和忠誠度上的價值。 但是,捕捉主題專家對公司市場動態的了解也是有價值的。 而在數學模型方面,做這樣有助於使企業知識制度化。 如果做得好,在整個公司中使用隨後產生的等式,可以成為公司的知識產權。 即使這些數據來源是公開的,這也是真的知識產權,因為數據是如何被利用的,從而創造了知識產權,而這實際上是有專利的。
在時間序列方法的數據挖掘的成功實施中,需要考慮三個先決條件:理解預測在不同時間段內的有用性,能區分規劃和預測,最後,讓所有利益相關方在預測實施中達成一致。
傳統數據挖掘和時間序列數據挖掘之間的一個主要區別是,在時間序列數據挖掘中,預測的時間範圍起著關鍵作用。為便於參考,短期預測定義為1至3年,中期預測定義為3至5年,長期預測定義為5年以上。我們同意,超過10年的任何事情都應被視為設想而不是預測.
金融集團通常控制公司的“規劃”匯總流程,並提供公司計劃的“該”數量緊依華爾街並向它們報告。戰略團隊總是需要中等(1 - 3年)到長期(3年以上)的戰略規劃預測。執行銷售和運營計劃(ESOP)流程需要資源和資產計劃的中期範圍預測。市場營銷和銷售組織總是需要中短期預測來進行規劃。新業務開發納入 NPV 流程中的中長期預測以評估新的商業機會。業務經理嚴重依賴短期和中期預測來獲取他們自己的業務數據,但也需要了解市場情況。由於採購組織能夠讓每一分錢都直接走向底線來為公司節省,因此公司的採購組織應該制定並對原材料,物流成本,材料和供應、以及服務支持有高質量的預測。
然而,不管利益相關者群體的需求和目標如何,將“規劃”過程與“預測”過程區分開來是至關重要的。公司確實需要有一個追求的計劃。企業領導者必須對計劃負責。但是,聲稱這個計劃是“預測”這可能是有災難性的。計劃是我們“感覺我們可以做的”,而預測是對最可能發生什麼的數學估計。兩者都應該保持分別這些不一樣。兩者的準確性應該在很長一段時間內進行追踪。當向華爾街報告時,準確性比精確性更重要。因為有精確性這樣的接近錯誤的數字不會有幫助。
鑑於組織內有這麼多組群有類似的預測需求,最好的做法是整個公司邁向“一個數字”框架。如果財務,戰略,營銷/銷售,企業ESOP,NBD,供應鍊和採購,組織不使用“相同的數字”,則可能導致巨大的浪費。這種浪費可能會帶來重工和/或管理不善的情況。這就要求採用更集中的方法來為企業提供預測,並與業務計劃功能的輸入保持平衡。 Chase(2013)在他的“需求驅動的預測”一書中介紹了集中預測的企業框架。
成功的預測實施中的原材料是Y變量的歷史時間序列數據,這些變量驅動業務價值,並同時選擇一組影響它們的解釋性(X)變量。創建時間序列數據涉及選擇時間間隔和積累的方法。選擇一組解釋變量包括為每個Y消除不相關和多餘的候選人. 這些任務是相互關聯的。例如,如果需求受自身價格和相關替代品和輔助品價格的影響,並且價格通常每月重置一次,則每月的累計應該使分析師能夠最佳查看有各種需求序列的候選價格關聯模式。本文的其餘部分概述了經過證明在生產原材料方面有效且高效的成功預測分析的技術和工具。演示的背景是大規模的預測實施,大數據 - 也就是成千上萬的Y和候選X系列是一個起點。
數據挖掘中的大數據進行預測
大數據源概述
在過去的15年左右時間裡,企業可以獲得的基於外部時間序列的數據量出現大幅增長。商業來源包括:Global Insights,Euromonitor,CMAI,彭博,尼爾森,穆迪,Economy.com和Economagic。還有政府來源,如:www.census.gov,www.stastics.gov.uk/statbase,IQSS數據庫,研究.stlouisfed.org,imf.org,stat.wto.org,www2.lib.udel.edu和sunsite.berkeley.edu。所有這些都提供某種時間序列數據 - 也就是說,隨時間收集的數據包括時間戳。許多這些服務都是收費的;有些是免費的。 Global Insights(ihs.com)僅包含超過3000萬個時間序列。
這些額外的信息實際上改變了公司應該處理時間序列預測問題的方式,因為需要新的方法來確定在外生變量預測問題中應該考慮哪些可能的數千個有用的時間序列變量。業務經理沒有時間“掃描”並繪製所有這些系列用於決策。
這些外部資源中的很多提供了歷史時間序列數據的數據庫,但不提供這些變量的預測。模型外生變量的主導或預測值對於創建依賴變量或目標變量的預測是必要的。其他服務,如Global Insights,CMAI和其他服務提供主要預測。關於內部數據,收集和管理數據的IT系統(如SAP等)真正為企業打開了一扇門,可以處理收入,數量,價格,成本等詳細的歷史靜態數據,甚至可以包括整個產品收入證明。也就是說,系統架構實際上是為了保存歷史數據而設計的。二十五年前,IT經理們擔心存儲限制,因此會“為系統設計出任何有用的歷史細節”來進行預測。由於存儲成本現在非常便宜,IT架構設計包括“節省”各種按比例分級的細節,以便公司充分利用這些豐富的信息。
時間序列模型的相關背景
關於時間序列建模的一些重要特性在這一點上很重要。首先,區分時間序列數據和簡單靜態數據的一點是時間序列數據可以隨時間與“自身”相關聯。這被稱為串行關聯。如果使用簡單的回歸或相關技術嘗試將一個時間序列變量與另一個時間序列變量相關聯,並忽略可能的序列相關性,則可能會誤導商人。因此,嚴格的統計處理這個序列相關性很重要。第二個特點是需要考慮兩大類統計預測方法。首先是單變量預測方法。在這種情況下,在建模過程中只考慮要預測的變量(Y或因變量)。 Y本身的歷史趨勢,週期和季節性是構建預測模型時考慮的唯一結構。在這種情況下不需要數據挖掘。
在第二種方法中,各種時間序列數據來源過多 - 使用各種X或獨立(外生)變量來幫助預測Y或感興趣的因變量。這種方法被認為是建立外生變量預測模型。企業通常會考慮這個增加值;現在我們正試圖了解驅動因素或領先指標。外生變量方法導致需要對預測問題進行數據挖掘。
儘管單變量或單純的預測通常是非常有用的,並且在短期內可能非常準確,但有兩件事情他們無法做到,也沒有多元預測。首先是提供對預測的“驅動因素”的理解。業務經理總是想知道“變量”(在這種情況下意味著其他時間序列)是什麼“驅動”他們試圖預測的系列。只有預測不符合這些驅動因素。其次,當使用這些驅動因素時,外生變量模型往往比單變量預測模型更為準確。
最近的2008/2009年的經濟衰退表明,在外生變量領先指標框架中使用恰當的X會讓一些公司更加警惕未來的困境。單變量預測無法捕捉到這一現像以及外生變量預測。
上面介紹的外部數據庫不僅提供了企業試圖建模的Y(如NAICS或ISIC數據庫中那樣),還為多元(X)預測問題提供了潛在的X(假設驅動因素)。 Ellis(2005)在“曲線的提前”中做了一個很好的佈局結構,用於確定在X預測問題中多變量要考慮的X變量。 Ellis提供了一個思考過程,當與此處提出的預測過程的數據挖掘相輔相成時,這將有助於業務預測員更好地確定關鍵驅動因素並建立有用的預測模型。
外生變量預測的使用不僅體現在未來價格,需求,成本等潛在更準確的價值中,而且還為理解經濟活動變化的時間提供了基礎。 Achuthan和Banerji(2004)在擊敗經濟周期中與Banerji(1 999)一起,提出了一種引人注目的方法來確定潛在的Xs,作為預測模型中的領先指標。埃文斯等人。 (2002)(www.nber.org和www.conference-board.org)已經制定了框架,用於指示大型區域經濟體以及特定行業的經濟活動大幅度轉變。他們概述的過程的一部分確定了關鍵驅動因素最後,這項工作的大部分內容都提出了這樣一個觀點:如果研究的時間足夠長,Y和X之間的許多結構關係相當穩定。這為商業決策者和預測者提供了慰借,他們願意學習如何使用數據挖掘技術進行預測,以挖掘數據中的時間序列關係。
許多大公司已決定將外部數據(如上面提到的Global Insights中的數據)作為其整體數據架構的一部分。內置小型計算機系統可自動將數據從外部源移動到內部數據庫。這與用於提取內部靜態數據的工具配合使用,可以將外部Y和X數據同時放在內部。內部Y數據通常仍然是交易形式。一旦正確處理或匯總(例如,通過簡單地總結一致的時間間隔(如月)並連接到每月時間戳),此時間戳數據就成為時間序列數據。這個數據庫現在將具有適當的時間戳,包括內部和外部的Y和X數據,並且都在一個地方。這個時間序列數據庫現在是數據挖掘預測多變量建模過程的起點。
特徵選擇:時間序列的起源和必要補充
各種作者已經定義了數據挖掘和經典統計推斷之間的差異; Hand(1998),Glymour et al。 (1997年)和Kantardzic(2011年)是值得注意的例子。在一個經典的統計框架中,科學方法(Cohen和Nagel,1934)推動了這種方法。首先,有一個特定的研究目標受到追捧。這些目標往往是由第一原則或問題的物理原理驅動的。這個目標然後以假設的形式被指定;從那裡提出一個特定的統計“模型”,然後反映在一個特定的實驗設計中。這些實驗設計使得隨後的分析更容易,因為X s是獨立的或彼此正交的。這種熱度導致其中“驅動因素”的效果完全分離。因此,數據被收集起來,模型是合適的,並且所有先前指定的假設都使用特定的統計方法進行測試。因此,可以建立非常乾淨和特殊的因果模型。
相比之下,在許多商業環境中,一組“數據”通常包含許多Y和X,但沒有特定的建模目標或假設首先被收集。這種原始目標的缺乏常常導致數據具有不相關的和多餘的候選解釋變量。解釋變量的冗餘也稱為多重共線性 - 也就是說,X s實際上是相互關聯的。這使建築因果模型變得更加困難。數據挖掘從業者將“挖掘”這種類型的數據,因為各種統計和機器學習方法被應用於尋找特定X的數據,這些數據可能以一定的準確度“預測”Y.然後對靜態數據進行數據挖掘是確定哪些X能夠最好地預測Y(s)的過程。這與使用科學方法的經典統計推斷不同。建立適當的預測模型並不一定意味著建立了充分的因果模型。考慮到時間序列數據,可以理解類似的框架。時間序列問題的科學方法是由問題的“經濟學”或“物理學”推動的。可以假設各種“結構形式”。
通常情況下,有一組有限的X s,然後用它來構建多元時間序列預測模型或小組線性模型,這些模型被解決為“一組聯立方程”。用於預測的數據挖掘是類似的過程到“靜態”數據挖掘過程。也就是說,給定時間序列數據庫中的一組Ys和Xs,Xs在預測Ys方面做得最好嗎?在工業環境中,與傳統的數據挖掘不同,“數據集”通常不會用於進行預測練習的數據挖掘。在某種意義上,有一些特定的方法遵循前面討論的科學方法。這裡的主要區別在於時間序列數據不能以設計實驗的方式進行佈局。
關於過程,各位作者報告了關於靜態數據的數據挖掘。 Azevedo和Santos(2008)的一篇論文比較了KDD過程,SAS Institute的SEMMA過程(樣本,探索,修改,模型,評估)和CRISP數據挖掘過程。 Rey和Kalos(2005)回顧了陶氏化學公司使用的數據挖掘和建模過程。所有這些過程中的一個共同主題是存在許多候選解釋變量,並且需要一些方法來減少作為對特定選擇建模方法的輸入而提供的X的數量。這種減少通常被稱為變量或特徵選擇。許多研究人員已經研究並提出了許多用於靜態數據變量選擇的方法(Koller和Sahami(1996),Guyon和Elisseeff(2003)等)。本文的闡述之一是時間序列型數據變量選擇研究的一個發展領域。
註記
1.一個重要且相關的想法是,預測時間的範圍是其中的時間間隔數的函數。例如,如果數據已經累積到一年的時間間隔,則兩年的期限可以被視為“短期”。相反,如果數據有一分鐘的間隔,則預測明天中午變量的水平或速率可能被認為是很長的範圍。
2.在大規模預測情景中,預測數據挖掘的第一步是根據產品類型,地理分佈或驅動常見系統變化的其他特徵對Y變量進行分組。然後可以為Y組選擇候選解釋變量。
數據挖掘不適用於單變量預測方法,如指數平滑法,其中時間序列本身的值(例如,每週銷售額)是唯一使用的數據,也就是說沒有解釋變量。然而,對於包含解釋變量(例如價格,廣告,經濟狀況,天氣等)的迴歸模型和其他方法,數據挖掘可用於識別要包含在模型中的最相關變量。本文包括來自政府和商業來源的可用時間序列數據集列表。許多數據服務都是免費的,並且有系統可以自動將外部時間序列加載到組織的內部數據庫中。
數據挖掘過程中也有一些有用的參考,稱為變量或特徵選擇,即將多個候選解釋變量減少到有限數量以包含在預測模型中。
介紹,價值主張和先決條件
大數據對不同的人意味著不同的事物。在預測的背景下,精明的決策者需要設法從大數據中獲取價值。用於預測的數據挖掘,將為業務決策者提供了機會,隨時可用的內部和外部時間序列數據的眾多來源,利用它們到那些可直接影響盈利能力的可運作的策略。決定做什麼,什麼時候做,以及是誰來做的一個複雜的過程。了解哪些因素推動需求,以及這些因素(例如原材料,物流,勞動力等)如何與生產過程,或與需求相互作用並隨時間變化而改變,這些都是在此背景下可獲得價值的關鍵。
面向靜態類型數據(數據不具有時間序列框架)的傳統數據挖掘過程,方法和技術在過去的四分之一世紀已經大大增加(Fayyad et al。(1996),Cabena et al。(1998), Berry(2000),Pyle(2003),Duling和Thompson(2005),Rey和Kalos(2005),Kurgan和Musilek(2006),Han等人(2012))。這些參考文獻談到了這個過程以及無數旨在建立沒有時間序列框架的數據預測模型的方法。推動本文的想法是,在數據挖掘的跨領域概念對預測具有重要價值。也就是說,隨著時間的推移使用基於時間序列的方法挖掘收集的數據。
這個價值有很多種形式。 很顯然,在庫存成本降低及收入優化的角度來幫助他們,在決定什麼時候、做什麼、以及誰可以的時候更加準確,更不用說在客戶的滿意度和忠誠度上的價值。 但是,捕捉主題專家對公司市場動態的了解也是有價值的。 而在數學模型方面,做這樣有助於使企業知識制度化。 如果做得好,在整個公司中使用隨後產生的等式,可以成為公司的知識產權。 即使這些數據來源是公開的,這也是真的知識產權,因為數據是如何被利用的,從而創造了知識產權,而這實際上是有專利的。
在時間序列方法的數據挖掘的成功實施中,需要考慮三個先決條件:理解預測在不同時間段內的有用性,能區分規劃和預測,最後,讓所有利益相關方在預測實施中達成一致。
傳統數據挖掘和時間序列數據挖掘之間的一個主要區別是,在時間序列數據挖掘中,預測的時間範圍起著關鍵作用。為便於參考,短期預測定義為1至3年,中期預測定義為3至5年,長期預測定義為5年以上。我們同意,超過10年的任何事情都應被視為設想而不是預測.
金融集團通常控制公司的“規劃”匯總流程,並提供公司計劃的“該”數量緊依華爾街並向它們報告。戰略團隊總是需要中等(1 - 3年)到長期(3年以上)的戰略規劃預測。執行銷售和運營計劃(ESOP)流程需要資源和資產計劃的中期範圍預測。市場營銷和銷售組織總是需要中短期預測來進行規劃。新業務開發納入 NPV 流程中的中長期預測以評估新的商業機會。業務經理嚴重依賴短期和中期預測來獲取他們自己的業務數據,但也需要了解市場情況。由於採購組織能夠讓每一分錢都直接走向底線來為公司節省,因此公司的採購組織應該制定並對原材料,物流成本,材料和供應、以及服務支持有高質量的預測。
然而,不管利益相關者群體的需求和目標如何,將“規劃”過程與“預測”過程區分開來是至關重要的。公司確實需要有一個追求的計劃。企業領導者必須對計劃負責。但是,聲稱這個計劃是“預測”這可能是有災難性的。計劃是我們“感覺我們可以做的”,而預測是對最可能發生什麼的數學估計。兩者都應該保持分別這些不一樣。兩者的準確性應該在很長一段時間內進行追踪。當向華爾街報告時,準確性比精確性更重要。因為有精確性這樣的接近錯誤的數字不會有幫助。
鑑於組織內有這麼多組群有類似的預測需求,最好的做法是整個公司邁向“一個數字”框架。如果財務,戰略,營銷/銷售,企業ESOP,NBD,供應鍊和採購,組織不使用“相同的數字”,則可能導致巨大的浪費。這種浪費可能會帶來重工和/或管理不善的情況。這就要求採用更集中的方法來為企業提供預測,並與業務計劃功能的輸入保持平衡。 Chase(2013)在他的“需求驅動的預測”一書中介紹了集中預測的企業框架。
成功的預測實施中的原材料是Y變量的歷史時間序列數據,這些變量驅動業務價值,並同時選擇一組影響它們的解釋性(X)變量。創建時間序列數據涉及選擇時間間隔和積累的方法。選擇一組解釋變量包括為每個Y消除不相關和多餘的候選人. 這些任務是相互關聯的。例如,如果需求受自身價格和相關替代品和輔助品價格的影響,並且價格通常每月重置一次,則每月的累計應該使分析師能夠最佳查看有各種需求序列的候選價格關聯模式。本文的其餘部分概述了經過證明在生產原材料方面有效且高效的成功預測分析的技術和工具。演示的背景是大規模的預測實施,大數據 - 也就是成千上萬的Y和候選X系列是一個起點。
數據挖掘中的大數據進行預測
大數據源概述
在過去的15年左右時間裡,企業可以獲得的基於外部時間序列的數據量出現大幅增長。商業來源包括:Global Insights,Euromonitor,CMAI,彭博,尼爾森,穆迪,Economy.com和Economagic。還有政府來源,如:www.census.gov,www.stastics.gov.uk/statbase,IQSS數據庫,研究.stlouisfed.org,imf.org,stat.wto.org,www2.lib.udel.edu和sunsite.berkeley.edu。所有這些都提供某種時間序列數據 - 也就是說,隨時間收集的數據包括時間戳。許多這些服務都是收費的;有些是免費的。 Global Insights(ihs.com)僅包含超過3000萬個時間序列。
這些額外的信息實際上改變了公司應該處理時間序列預測問題的方式,因為需要新的方法來確定在外生變量預測問題中應該考慮哪些可能的數千個有用的時間序列變量。業務經理沒有時間“掃描”並繪製所有這些系列用於決策。
這些外部資源中的很多提供了歷史時間序列數據的數據庫,但不提供這些變量的預測。模型外生變量的主導或預測值對於創建依賴變量或目標變量的預測是必要的。其他服務,如Global Insights,CMAI和其他服務提供主要預測。關於內部數據,收集和管理數據的IT系統(如SAP等)真正為企業打開了一扇門,可以處理收入,數量,價格,成本等詳細的歷史靜態數據,甚至可以包括整個產品收入證明。也就是說,系統架構實際上是為了保存歷史數據而設計的。二十五年前,IT經理們擔心存儲限制,因此會“為系統設計出任何有用的歷史細節”來進行預測。由於存儲成本現在非常便宜,IT架構設計包括“節省”各種按比例分級的細節,以便公司充分利用這些豐富的信息。
時間序列模型的相關背景
關於時間序列建模的一些重要特性在這一點上很重要。首先,區分時間序列數據和簡單靜態數據的一點是時間序列數據可以隨時間與“自身”相關聯。這被稱為串行關聯。如果使用簡單的回歸或相關技術嘗試將一個時間序列變量與另一個時間序列變量相關聯,並忽略可能的序列相關性,則可能會誤導商人。因此,嚴格的統計處理這個序列相關性很重要。第二個特點是需要考慮兩大類統計預測方法。首先是單變量預測方法。在這種情況下,在建模過程中只考慮要預測的變量(Y或因變量)。 Y本身的歷史趨勢,週期和季節性是構建預測模型時考慮的唯一結構。在這種情況下不需要數據挖掘。
在第二種方法中,各種時間序列數據來源過多 - 使用各種X或獨立(外生)變量來幫助預測Y或感興趣的因變量。這種方法被認為是建立外生變量預測模型。企業通常會考慮這個增加值;現在我們正試圖了解驅動因素或領先指標。外生變量方法導致需要對預測問題進行數據挖掘。
儘管單變量或單純的預測通常是非常有用的,並且在短期內可能非常準確,但有兩件事情他們無法做到,也沒有多元預測。首先是提供對預測的“驅動因素”的理解。業務經理總是想知道“變量”(在這種情況下意味著其他時間序列)是什麼“驅動”他們試圖預測的系列。只有預測不符合這些驅動因素。其次,當使用這些驅動因素時,外生變量模型往往比單變量預測模型更為準確。
最近的2008/2009年的經濟衰退表明,在外生變量領先指標框架中使用恰當的X會讓一些公司更加警惕未來的困境。單變量預測無法捕捉到這一現像以及外生變量預測。
上面介紹的外部數據庫不僅提供了企業試圖建模的Y(如NAICS或ISIC數據庫中那樣),還為多元(X)預測問題提供了潛在的X(假設驅動因素)。 Ellis(2005)在“曲線的提前”中做了一個很好的佈局結構,用於確定在X預測問題中多變量要考慮的X變量。 Ellis提供了一個思考過程,當與此處提出的預測過程的數據挖掘相輔相成時,這將有助於業務預測員更好地確定關鍵驅動因素並建立有用的預測模型。
外生變量預測的使用不僅體現在未來價格,需求,成本等潛在更準確的價值中,而且還為理解經濟活動變化的時間提供了基礎。 Achuthan和Banerji(2004)在擊敗經濟周期中與Banerji(1 999)一起,提出了一種引人注目的方法來確定潛在的Xs,作為預測模型中的領先指標。埃文斯等人。 (2002)(www.nber.org和www.conference-board.org)已經制定了框架,用於指示大型區域經濟體以及特定行業的經濟活動大幅度轉變。他們概述的過程的一部分確定了關鍵驅動因素最後,這項工作的大部分內容都提出了這樣一個觀點:如果研究的時間足夠長,Y和X之間的許多結構關係相當穩定。這為商業決策者和預測者提供了慰借,他們願意學習如何使用數據挖掘技術進行預測,以挖掘數據中的時間序列關係。
許多大公司已決定將外部數據(如上面提到的Global Insights中的數據)作為其整體數據架構的一部分。內置小型計算機系統可自動將數據從外部源移動到內部數據庫。這與用於提取內部靜態數據的工具配合使用,可以將外部Y和X數據同時放在內部。內部Y數據通常仍然是交易形式。一旦正確處理或匯總(例如,通過簡單地總結一致的時間間隔(如月)並連接到每月時間戳),此時間戳數據就成為時間序列數據。這個數據庫現在將具有適當的時間戳,包括內部和外部的Y和X數據,並且都在一個地方。這個時間序列數據庫現在是數據挖掘預測多變量建模過程的起點。
特徵選擇:時間序列的起源和必要補充
各種作者已經定義了數據挖掘和經典統計推斷之間的差異; Hand(1998),Glymour et al。 (1997年)和Kantardzic(2011年)是值得注意的例子。在一個經典的統計框架中,科學方法(Cohen和Nagel,1934)推動了這種方法。首先,有一個特定的研究目標受到追捧。這些目標往往是由第一原則或問題的物理原理驅動的。這個目標然後以假設的形式被指定;從那裡提出一個特定的統計“模型”,然後反映在一個特定的實驗設計中。這些實驗設計使得隨後的分析更容易,因為X s是獨立的或彼此正交的。這種熱度導致其中“驅動因素”的效果完全分離。因此,數據被收集起來,模型是合適的,並且所有先前指定的假設都使用特定的統計方法進行測試。因此,可以建立非常乾淨和特殊的因果模型。
相比之下,在許多商業環境中,一組“數據”通常包含許多Y和X,但沒有特定的建模目標或假設首先被收集。這種原始目標的缺乏常常導致數據具有不相關的和多餘的候選解釋變量。解釋變量的冗餘也稱為多重共線性 - 也就是說,X s實際上是相互關聯的。這使建築因果模型變得更加困難。數據挖掘從業者將“挖掘”這種類型的數據,因為各種統計和機器學習方法被應用於尋找特定X的數據,這些數據可能以一定的準確度“預測”Y.然後對靜態數據進行數據挖掘是確定哪些X能夠最好地預測Y(s)的過程。這與使用科學方法的經典統計推斷不同。建立適當的預測模型並不一定意味著建立了充分的因果模型。考慮到時間序列數據,可以理解類似的框架。時間序列問題的科學方法是由問題的“經濟學”或“物理學”推動的。可以假設各種“結構形式”。
通常情況下,有一組有限的X s,然後用它來構建多元時間序列預測模型或小組線性模型,這些模型被解決為“一組聯立方程”。用於預測的數據挖掘是類似的過程到“靜態”數據挖掘過程。也就是說,給定時間序列數據庫中的一組Ys和Xs,Xs在預測Ys方面做得最好嗎?在工業環境中,與傳統的數據挖掘不同,“數據集”通常不會用於進行預測練習的數據挖掘。在某種意義上,有一些特定的方法遵循前面討論的科學方法。這裡的主要區別在於時間序列數據不能以設計實驗的方式進行佈局。
關於過程,各位作者報告了關於靜態數據的數據挖掘。 Azevedo和Santos(2008)的一篇論文比較了KDD過程,SAS Institute的SEMMA過程(樣本,探索,修改,模型,評估)和CRISP數據挖掘過程。 Rey和Kalos(2005)回顧了陶氏化學公司使用的數據挖掘和建模過程。所有這些過程中的一個共同主題是存在許多候選解釋變量,並且需要一些方法來減少作為對特定選擇建模方法的輸入而提供的X的數量。這種減少通常被稱為變量或特徵選擇。許多研究人員已經研究並提出了許多用於靜態數據變量選擇的方法(Koller和Sahami(1996),Guyon和Elisseeff(2003)等)。本文的闡述之一是時間序列型數據變量選擇研究的一個發展領域。
註記
1.一個重要且相關的想法是,預測時間的範圍是其中的時間間隔數的函數。例如,如果數據已經累積到一年的時間間隔,則兩年的期限可以被視為“短期”。相反,如果數據有一分鐘的間隔,則預測明天中午變量的水平或速率可能被認為是很長的範圍。
2.在大規模預測情景中,預測數據挖掘的第一步是根據產品類型,地理分佈或驅動常見系統變化的其他特徵對Y變量進行分組。然後可以為Y組選擇候選解釋變量。
留言
張貼留言