關於可預測性(forecastability)
關於可預測性可以有好幾種不同的解釋。
1. 數列穩定性的評估
2. 預測時間序列時,準確率的程度
3. 在用一種時間序列方法,我們估計它 MAPE 的期待範圍的精確度
穩定性概念與預測精準率很清楚是相關的。當一個數列變得較沒那麼穩定時,我們可以預期預測準確率也會變得較差。當一個數列變得較沒那麼穩定時,我們預料對任何誤差的量測方式而言,要去估計它的範圍都會變得較為困難。儘管如此,我們應該知道穩定性與預測精準率它們還是不同的概念。
當將穩定性作為可預測性的定義時,理當不會涉及或受限於哪一個特定的預測方法或預測誤差量測方式,而只與數列有關。這是一個有力點。但同時這也是一個弱點,尤其當穩定性與可預測性的聯繫不是那樣明顯時。
在一些例子穩定性與預測精準度對應的很好。例如 sine 波是一個完美穩定的時間序列,沒有任何隨機部位在那裏。如果我們知道它的相位(phase)與震幅(amplitude),我們可以精確的預測這個序列。在這個例子,對任何合理的誤差量測方法而言,預測誤差都將為 0。
在 Henon 映射的例子中,假定數據生成過程已知是混亂的。如果我們將我們對其可預測性評估基礎建立在近似熵度量上,我們可以說序列是穩定的。 如果這個數據產生過程是可識別的同時可以正確估計它的參數,在預測精準度的感受上它只是可預測的。預測者是否值得懷疑,呈現一個短的Hénon時間圖,將能夠推斷基於它的動態系統。 如果預測者錯誤地指定了數據生成過程,則預測誤差可能很大並且難以確定。 所以穩定一系列並不意味著良好的預測準確性。
這裡產生一個問題: 對好的預測精準度而言,穩定性是一必要條件嗎? 當單獨考慮一個數列時,此時沒有背景訊息或伴隨其它的序列,可能就是這種情況。 一個變來變去的序列無法進行外插推斷獲得好的精準度。然而一個變來變去的序列可能與另一個序列有一個時間遞延的關係,使能獲得好的預測精準度。另外,有關商業狀況的定性訊息可能讓用主观臆断這種預測方法有精確的預測。所以採取比外插推斷更廣泛的視角,我們可以了解穩定性不是一個有好精準度的必要條件。
穩定性是重要,但應該與可預測性有分別。可預測性這一個詞已經被用在不同方面,使得這個概念不太容易被掌握住。離開了穩定性的圖像,可預測性需要一的更清晰的概念。
藉著預測誤差來定義可預測性。
暫時,我提供了這個定義:“可預測性是可達成的最小的預測誤差水平。“一個數列比另一個數列更具可預測性,就某一特定的誤差度量而言,如果它具有較小的可實現的預測錯誤。最小的一詞必須根據正在使用的預測誤差度量來合理的解釋。
有三個例子將說明用這種解釋需要謹慎。
對 MAE(mean absolute error)而言,"最小"簡單意味著就是"最低"。對 ME(mean error),"最小"簡單意味著就是"最靠近 0" (例如: ME 為 +1 就是比 ME 為 –2 小)。對 AFAR(Accumulated Forecast to Actual Radio) 而言,"最小"簡單意味著就是最靠近 0" (例如: AFAR 為 102% 就是比 AFAR 為 96% 小)。
這種定義也遭受一些問題。
第一個問題是: 如果對下一期進行誤差量測時,可能運氣好預測賓果,預測誤差為 0。很清楚,長期而言這種好運氣不可能一直持續。 為了克服這個,我們可以改正可預測的定義為"從長遠來看,平均可達到的最低預測誤差水平"。 這種可預測性的定義不受限於特定的誤差量測方式而是可以套用在任何可以將何謂"最小"合適的解釋的量測誤差方法上。
同時它也不受限於哪一個基本時間序列預測方法。在這樣做的時候,它解決了有人反對在拆解序列後使用它的變異係數(消除線性趨勢和季節性),依靠某種方法的方式來定義可預測性。傳統的拆解,它可能可以視作一種基本的時間序列方法,它只是一種方法可以用來對序列去趨勢與去季節性。大概,在考慮基於較複雜的 ARIMA 模型的自我相關性後,我們可能留下較小的變異係數。這個可預測性定義克服了這個問題,不受限於預測方法範圍。
第二個問題是: 此定義取決於最小預測誤差的實現。 一個系列可能難以預測,並且會產生較高的預測誤差,除非確定了特定的方法,在這種情況下預測誤差很小。 在這些情況下,指定預測誤差的下限和上限會很有幫助。 估計這些上限的方法在下面的文章中討論。 我們的定義現在相應地擴大了:“可預測性指的是從長遠來看平均可實現的預測誤差範圍。 範圍的較低值代表可實現的最低預測誤差。 範圍的上限值表示基於基準預測方法的上限。“
預測誤差度量的上界
如果我們可以根據簡單的基準方法找到預測誤差的上限,那麼應該停止任何產生更大誤差(較不准確的預測)的方法,並尋求替代方法。 上限也可用於生成異常報告,以通知預測分析人員的糾正措施。
很多相對誤差指標都使用 naïve 作為基準方法。 naïve方法預測從現在到未來下一個期間是沒有變化的。 納入naïve 基線的指標包括相對絕對誤差,Theil 係數和平均絕對比例誤差(Hyndman 和 Koehler,2006)。 對於所有這些指標,100%以上的結果表明,通過使用最後的實際觀察值作為預測值的 naïve方法,我們可以做得更好。 在大多數預測軟件包中提供了以 naïve 為基準的相對誤差測量。
使用 naïve 方法作為上限的一個缺點是它可能設置得太低。 通常情況下,更好的替代方案顯然是可用的,尤其是當數據趨於趨勢或季節性時。 M1和 M3 預測競賽(Makridakis 等,1982; Makridakis和Hibon,2000)證實,naïve 方法 一般不如其他簡單的預測方法。 該研究證據與從業者的經驗相符,他們不太可能將 naïve 方法視為可行的預測方法。
可以考慮兩種選擇。 對於非季節性數據,簡單移動平均值或簡單指數平滑可以用作基線。 對於趨勢數據或季節性數據,考慮趨勢和季節性的基線(如傳統拆解法或Winters的指數平滑)可能更明智。 這些替代方法採用卡恩(2006)提出的方法,但將其用作上限而不是下限。 正如 Peter Catt 所言,基於趨勢和季節性組成分解的方法往往可以得到改進; 儘管不適合作為下限,但它們可以用作上限。 這些上限應該比 naïve 方法更清晰,這意味著分析師能夠更早地檢測當前預測方法的問題,因為它們正在與更好的替代方法進行比較。
預測誤差測度的下界
上一節已經指出了一些確定預測準確度上限的方法。 下限如何? 如果數據生成過程(DGP)是已知的,並且時間序列未來不會偏離 DGP,則可以準確地設置下限。 這是通過確定誤差測量的長期平均值(期望值)的數學表達式來完成的。 這種方法已被用於季節性 DGP 的研究中,並在稍後討論。
當我們不知道數據生成過程時,或者當DGP隨時間變化時,必須估計下限。 這種情況是從業者在工作時面臨沒有這種明確定義好,規規矩矩的數據的奢華。
首先,估計預測誤差的下限似乎是不可能完成的任務。 畢竟,有無窮無盡的預測方法,方法的加權平均值(組合)以及可能使用的臆測方法。
一種方法是估計一組方法M1,M2,..,Mm 的下界。 例如,M1,M2可能代表組織當前使用的兩種方法。 其他方法目前不能使用,但可能正在考慮實施。 但是我們不能確定我們是否包含了理想的或最佳的方法。 所以我們應該期望從我們的方法中得到的下界不會是最終的下界。
在圖1.3中,我假定最終的下限是未知的。 我們重新排列了方法,使得方法M1具有最大誤差,而方法Mm具有最小誤差。 方法Mm引發的誤差是可預測性的度量,當方法限於方法組M1,M2,...Mm 時。
從更實際的角度來看,預測軟件的用戶可能希望使用自動模型選擇程序來檢查系列的可預測性。自動預測基於軟件中內置的一組方法,並使用錯誤度量來選擇最佳方法。基於所使用的軟件和用戶選擇的錯誤度量(不一定與軟件用來“挑選最佳”的錯誤度量相同),可以應用此方法來立即給出下限。它也是評估對軟件生成預測的主觀性調整的非常有用的基準。如果預測一直通過主觀性調整的應用而得到改善,那麼下限可以進一步降低,從而更準確地表明該系列的可預測性。例如,Syntetos等人(2009)發現,一家製藥公司通過整合主觀性調整,能夠提高基於公司軟件的間歇性需求預測的準確性。因此,下限已經降低。
比較一組方法的另一種方法是查看這些方法的組合。 例如,假設我們正在考慮五種方法,M1,M2,...。。。 ,M5。 我們還可以檢查這些方法的所有子集的簡單平均值,從所有對開始,然後移至所有三元組等等,直到完成所有五種方法的平均值。 如果預測誤差低於每個單獨使用的方法,最佳組合可以用作我們的下限。
阿姆斯特朗(Armstrong,2001)認為,如果您使用的方法差異巨大並且來自不同的信息來源,那麼這種組合就特別有價值。 Graefe和他的同事們(Graefe et al。,2009)發現美國大選預測的四個組成部分的簡單平均提高了調查股票預測的準確性。 Goodwin(2009)總結了三項關於經濟預測的研究的證據,所有這些研究都表明,合併預測可能會提高準確性。 M1和M3競賽也表現出組合方式的良好表現,使得它們成為估算預測誤差下限的自然選擇。
在某些情況下,如新產品發布,不可能根據歷史數據比較方法或方法組合。 在這種情況下,我們能做的最好的就是對類似系列進行分析(例如,前一段時間推出類似產品)。 當更多的數據可用時,我們的較低(和較高)界限估計值可以被改進。
發現更多可預測的系列
改進預測誤差的一個策略受到了很多關注,即致力於改進統計預測方法(或方法的線性組合)。第二個策略是利用對統計預測的判斷預測或判斷修改。目前正在對預測的這一重要方面給予更多的關注。第三個策略是確定更多可預測的系列進行預測。這種策略在預測文獻中受到的關注較少,但有很大的潛力可以減少預測誤差。
Hau Lee和他的同事(Lee,2000)研究了零售商的需求,該零售商遵循特定類型的模型,稱為一階自回歸模型。在這個模型中,當前需求與前一時期的需求乘一個乘法因子相關,並加上一個隨機擾動項。如果乘法因子是正數,那麼該序列被稱為“正自相關”。
Lee和他的合著者認為零售商對製造商使用“訂單式”訂購政策。在每個評估期間,零售商下達訂單以使該庫存達到預定水平。在這種情況下,如果零售商的需求是正向的自相關的,並且使用了最優的預測方法,那麼製造商的訂單將會比零售商的需求具有更大的變動性。
這是一個例子,其中一個系列(製造商的訂單)本質上比其他系列(零售商的需求)更難預測。在這種情況下,分享信息是有道理的,這樣批發商就可以根據零售商更多的可預測需求來訂單。最近的案例研究表明,這種策略可以在實踐中顯著降低成本(Boone和Ganeshan,2008)。
李的模型是通過假設DGP遵循自回歸結構而開發的。在現實世界的應用中,需求可能不會遵循這種自回歸過程,也可能不會使用最優的預測方法,或者庫存策略可能不是“訂單式”。在這種情況下,一系列預測方法可能是應用於零售商需求和訂單到製造商。
正如前一節所述,可以比較最佳方法所導致的錯誤,以評估哪些系列更具可預測性。這是一項務實的政策,因為許多組織採用的潛在預測方法的範圍受到諸如預測軟件和預測分析人員熟悉程度等因素的限制。當然,我們可能會錯過一種方法來扭轉我們關於哪個系列更具可預測性的決定。這只能通過更詳盡的方法搜索來解決。
找到更多可預測系列的另一個例子與季節性有關。 季節指數的估算通常很困難,特別是如果數據年數很少且系列噪音很大的話。 在許多實際情況中,有大量相關數據可能會有幫助。 例如,相同的產品可能在許多不同的地點銷售。 如果可以合理地假設在所有地點都有相同的季節性模式,那麼總需求的季節性可能比單個系列的季節性(在不同地點)更具有可預測性。 如果我們使用乘法指數,那麼在總體需求層面上找到的季節性指數可以直接應用於個別層面。 類似的觀點適用於產品系列,可以合理地假設相同的季節性指標適用於在產品系列中所有的產品。
倫納德(Leonard,2007)討論了季節性層次模型的應用,包括許多單獨的時間序列及其聚合。應該指出的是,聚合系列並不總是更具可預測性。 Chen和Boylan(2007)基於預測誤差下限表達式(基於均方誤差)的比較,提出了季節模型聚合序列使用的規則。假設一個序列非常嘈雜,但其季節性符合該組。那麼它可以從另一個序列中“借力”,並且應該使用總體季節性指數。假設第二個系列也具有符合這個群體的季節性,但是它的數據表現非常好,幾乎沒有噪音。那麼它只會從團隊中“借鑒弱點”,最好是使用自己的個人季節指數。在隨後的一篇論文中,Chen和Boylan(2008)將他們的規則應用於燈泡製造商的真實數據,表明可以實現準確性的提高。
結論
可預測性的想法是有價值的; 它使注意力的焦點從預測方法轉變到正在預測的序列。然而,可預測性的概念需要進一步加強。我提出了這個定義:“可預測性指的是從長遠來看平均可實現的預測誤差範圍。範圍的較低值代表可實現的最低預測誤差。該範圍的上限值表示基於基準預測方法的上限。“通過不將該概念限制為特定的預測方法或預測誤差度量,有兩個好處。首先,這個概念更一般,允許從一個非常廣泛的錯誤度量類別中進行錯誤測量。它不限於基本的時間序列方法。其次,它可能適用於理論上生成的系列和實際數據系列。前者可以指出一個系列比另一個系列更具有可預測性的情況。後者可用於使用與組織相關的預測方法和錯誤度量來測試關於實際數據的這種見解。這種方法在實踐中非常值得研究,因為可以獲得預測準確性的實質性收益。
留言
張貼留言