可預測性模型的建構

每當在有客氣文化的公司出現預測話題時,首先提出的問題之一 - 在關於糟糕預測的投訴已經停止之後 - 就是“我的預測準確度應該如何?”。由於很少有經驗豐富的商業專業人士認為目標 100%的預測準確性是現實的,那麼問題就變成了“什麼預測準確性是可以實現的?”當我們談論一個衡量指標或關鍵績效指標(KPI)時,我們通常會問“其他公司如何行事?” 類似的企業當然是一個相對簡單的方式來看看我們如何比較。

如果我們的競爭對手的準確率達到70%(平均30%的誤差),而我們達到50%,我們知道我們有一些工作要做。如果我們達到75%,而類似的企業達到65%,那麼我們可以認為我們持有自己的並獲得成果。魔鬼在這些指標如何在不同的公司或者單個公司的不同業務部門中進行計算的細節裡。 Stephan Kolassa  在他 Foresight 的文章(Kolassa,2008)中強調了標桿基準調查的實用性:“在標桿基準中,可比性是關鍵!”

為了建立預測指標的可比性,我們需要詢問以下事項:

■ 預測提前期是多久?
■我們預測哪些預測時間單位(每月,每週或每日)?
■我們所看到的產品層級中的哪個級別(SKU,SKU×配送中心,SKU×客戶×位置等)?
■是否有任何內容被精確度度量標準清除了?
■度量如何加權?
■是否包含直接進口或按訂單生產的SKU?

我們也可能會質疑企業預測的難度。 一般來說,預測像尿布這樣的非季節性消費品的銷售量比針對青少年的最近短期時尚更容易。 我們試圖通過對類似企業中的競爭對手進行標桿基準對比來消除這種情況,但即使我們一直在計算該指標並且這些公司處於相同部門,我們可以說其他一切 - 策略,供應鏈,產品構成,客戶行為等 也是平等的,甚至相當相似? 如果沒有所有相關方面的合理可比性,我們同意 Stephan Kolassa所說的 “尋求外部預測標桿基準是徒勞的”(Kolassa,第13頁)。 既然抓住標桿基準的表面可能會產生跟答案一樣多的新問題,那麼當我們考慮評估可預測性時,這會帶來什麼呢?

何謂可預測性?

一些研究人員將可預測性定義為改進簡單預測的能力,例如 naive 的方法(預測與最後實際相同)。 這樣的定義將naive方法作為標桿基準,因此可能是預期的最小預測準確度的指標。 然而,關於最佳可實現的預測準確性,這是沒有意義的。 更一般地說,Ken Kahn(2006)稱可預測性是“對數據模式穩定性的評估”。這裡的推定是這個序列越穩定(波動越小),其預測就越準確。 儘管如此,它並沒有告訴我們預測精度的提高是可以實現的。Peter Catt(2009)將可預測性定義為數據生成過程的複雜性,從確定性(可以無誤地預測)到隨機(沒有比預測 "不變"還要好的預測)的連貫。 卡特的定義與卡恩一樣,可以幫助我們確定不同產品的相對可預測性,但也不能輕易轉化為能夠揭示我們的準確性期望值的指標。

所有這些定義都說明了眼前的這個問題。我們如何判斷我們是否可以更好地預測特定品項?對於給定的SKU,SKU組,客戶或業務組,預測準確度的合理程度如何?這些不是簡單的問題。無論我們投入什麼樣的方法,我們都不知道我們是否能做得更好,直到我們嘗試做得更好 - 或許使用更複雜的方法。如果明天發明了新的預測算法,那麼我們可能會得到更好的預測準確度。 John Boylan在早期 Foresight 中討論了關於可預測性的特徵。(Boylan,2009)更詳細地研究了這些挑戰,並提供了一些確定可達到的預測誤差下限的一般指導原則。他的建議包括將時間序列與其在層次結構中的位置相關聯,結合來自不同方法的預測,並確定具有類似數據特徵的更多可預測序列。 但我們這裡的目標是專注於有改進機會的地方,這些機會有多大,以及不同業務,地區,客戶和項目的可預測性如何變化。

可預測性 DNA

尋找合理可實現的預測準確度達到何種程度的問題的答案,我們可以考慮可能影響特定產品可預測性的事物的類型。 表1.1列出了可供考慮的候選人名單。 大多數涉及產品本身,其他涉及更廣泛的公司政策,還有一些涉及產品銷售市場。

表列1.1
歷史年銷量
歷史銷量長度
歷史銷量的變異性
歷史銷量的間歇性
促銷(頻率、規模量、重複性)
趨勢與季節性
以 Naive 法的預測誤差
最大客戶的客戶數量和銷售集中度
供應鏈與庫存策略
預測提前期的長度


雖然表1.1中的列表並不詳盡,但它可以讓我們了解為什麼某些產品比其他產品更容易預測。 我們可以將這些因素視為每個項目的可預測性DNA。 一旦我們了解了一個項目的DNA,那麼我們就會明白是什麼推動了它的可預測性,以及它為什麼會與相同或不同業務中的其他項目不同或相似。 讓我們通過一個僅使用一個DNA因子 -歷史銷量的變異性的例子來說明,這種變異性經常被稱為變異係數(CoV)的統計量(例如參見Kahn,2006)。 傳統上,CoV定義為系列標準偏差與平均值的比值,因此衡量序列圍繞著平均值變化的程度百分比。

通常的觀點是CoV越高,即係列波動越大 - 系列預測的難度越大。 一個明顯的例外是,季節性銷售模式的系列儘管在季節之間有額外的變化,但可能更具可預測性。圖1繪製了企業特定地區所有SKU的平均絕對誤差百分比(MAPE)與CoV的關係曲線。 這種SKU組合包括季節性和非季節性穩定銷售者以及高度間歇性品項。 預測是使用統計軟件“自動”生成的。


在上圖中,存在明顯的相關性(R 2 = 30%),表明具有較大變異性的SKU預測誤差更大(精度更低)。 顯然,CoV並沒有講述整個故事,但它可以幫助我們識別出“不具特色”的項目,因此需要特別關注。 首先,我們看到很多 CoV 低(例如小於0.5)的項目,但仍然存在很高的錯誤。 同樣合乎邏輯的是,量大的比量小的SKU容易預測。 下圖顯示了這種對應關係(R 2 = 38%)。logSOH 為 log(歷史年銷量) 以同樣的方式,我們可以瀏覽可預測性DNA(歷史銷量的長度,銷售間歇性等)中的其餘基因,並選擇最能預測預測準確度的因子。 但是,我們應該使用更強大的多元方法,將DNA中的所有信息合併到一個模型中。


建構可預測性模型

模型的形式

根據愛因斯坦和奧卡姆威廉的建議,我們應該構建最簡單的模型,幫助我們理解可預測性,但並不簡單。 一旦我們完成了分析,我們將得到一般形式的關係:


通過為我們自己的獨特業務量身定制這種模式,我們可以進行自我評估。以這種方式進行的內部基準測試會根據每個項目的具體情況自動調整基準,從而解決可比性問題以及對基準比較的常見反應,即“我的業務由於x,y和z而難以預測。“通過在可預測性DNA中包含每個基因的影響,我們解決並補償這些xs,ys和zs中的每一個,從而為該業務制定相關基準。此外,還有一點需要注意的是,雖然沒有度量標準是完美的,但如果它有助於我們改進預測過程的性能,那麼這個度量標準就很有用。例如,如果一家特定的企業每年都會推出大量新產品,那麼我們可以通過將銷售歷史的長度納入DNA的一部分來彌補我們的基準,這意味著我們真正比較“喜歡喜歡”許多項目,地區,客戶和企業。

一起拉動數據

如上所述,一個項目的可預測性DNA可能包含相當多的基因,這意味著我們需要合理數量的數據來估計可預測性模型。 多少數據就夠了? 統計人員會說,“越多越好” - 只要它是相關性和代表性的。 我們最好能夠獲得完整的歷史記錄,以及SKU級別的客戶和促銷活動的其他信息; 但至少我們需要過去12個月的實際銷售和物料層面的預測(在關鍵交付時間),並提供有關業務,品牌,產品系列,物品以及所有其他感興趣的細節的信息。 請記住,我們將這些數據放在一起不是為了從歷史中產生預測,而是為了更好地判斷和了解推動我們預測過程有效性的因素。

內部標杆基準

一旦使用可用數據進行估算(更好就是更好!),可預測性模型將根據其特定DNA為每個項目預測預測誤差。 這個預測是我們的內部基準,它可以幫助預測一個項目的預測比他們的基準更差的情況。 在這些情況下,我們會問如下問題:“您是否在使用統計預測?”“您是否在使用最佳實踐來選擇和管理您的預測模型?”“您是否對您的預測做出了不恰當的判斷性調整?”等等。 這種內部基準測試的方法也避免了假設複雜方法自動表現優異:僅僅因為企業正在使用高級預測技術(例如ARIMAX,神經網絡等),而幾乎沒有改進的餘地。

當然,與通過Microsoft Excel或其他“原始”方法產生的預測相比,我們通常會希望使用更高級工具的地區或企業能夠超越標杆基準,但我們會讓分析告訴人們什麼可行。 在將數據集中在一起構建我們的內部標杆基準模型時,我們可能會發現缺少一些數據。 即使是這樣的情況,我們仍然可以通過使用強健(robust)建模技術(如神經網絡),決策樹等集成方法或其他數據挖掘技術創建模型,或者在回歸模型的情況下, 缺失值的任何預測變量的平均值。

建模文獻(Gelman,2006)的另一個常見建議是對每個預測變量(x s)進行集中和歸一化,來幫助我們創建更容易解釋的模型係數。 這意味著對於像 CoV 這樣的每個潛在預測變量,我們從所有值中減去均值並除以所有值的標準偏差。 一旦我們為可預測性DNA中的所有潛在預測因素完成了這一工作,我們將準備好構建我們的多元模型。

定義預測精度度量

建立模型的關鍵決定是預測精度度量的定義。度量指標是否應該預測精度或預測誤差? (請參閱David Hawitt在2010年夏季刊中的“Foresight”雜誌上的更多討論)。另外,我們必須確定度量標準是否應評估絕對預測誤差(以體積單位表示)或百分比預測誤差。百分比問題是,雖然它們允許在SKU之間進行簡單的比較,但它們可以掩蓋預測誤差對供應鏈的真實影響。畢竟,商家不太關心銷售100個單位的SKU的50%預測誤差,而不是銷售100萬個單位的SKU的預測誤差(當然假設類似的價格)。我們在這裡選擇使用絕對預測誤差來表示度量,這使我們能夠更直接地看到預測誤差對供應鏈的影響和成本。此外,一旦我們以絕對誤差的形式輸出模型,我們可以隨時將結果轉換為百分比誤差(MAPE),預測準確度百分比(100%減去MAPE)或任何其他版本的度量(對稱MAPE等等我們可以選擇向業務呈現我們的預測表現。

變換變量

作為構建模型的最後一個“技巧”,我們對以單位表示的變量,具有大範圍的值或高度傾斜的分佈的變量使用對數變換。 對數變換有助於確保模型滿足某些關鍵的回歸假設,降低最大值的影響,保證絕對誤差的正值,並便於解釋統計結果(Gelman和Hill,2006;第3.4節和第4.4節解釋 更詳細的日誌轉換的作用)。 現在我們的可預測性模型將具有一般形式:



某些預測因子,如CoV,不會轉化為 log,因為它們是開始時的比率或百分比。

可行性預測模型

在下表中,我們展示了通過將可預測性模型擬合到公司全球產品層次結構中所有項目(70,000+)的12個月數據得到的回歸結果的一部分。 由於潛在驅動因素列表很長,因此在某些因素之間可能會有一些重疊(共線性)。 所以最終的可預測性模型可能只使用這些因素的一個子集。 在我們的例子中,主要因素是年度歷史銷量大小,naive 錯誤和CoV。 客戶數和歷史的長度雖然在統計上顯著,但似乎並未成為該業務預測誤差的主要驅動因素。 最主要的是歷史銷量變量:預測歷史銷量變量中一個標準差的變化會導致預測誤差度量的幾乎0.9標準差變化,這是Naive Error變量的影響的三倍以上, 六倍於CoV的效果。


解釋歷史銷量係數

之前,我們展示了一個特定業務的圖表,支持這樣的想法,即隨著每年歷史銷量增加,預測誤差趨於按量百分比減少。乍一看,這個負面關係似乎與歷史銷量變量的正向係數0.8867相矛盾。這種明顯的矛盾可以通過模型中絕對誤差度量的使用與下圖中的百分誤差(MAPE)度量之間的差異來解釋。 歷史銷量越大導致絕對誤差越大,誤差佔歷史銷量百分比下降。計算結果如表1.3所示。請注意最後兩列顯示,隨著歷史銷量變量的增加,絕對誤差增加,但MAPE下降。只要對數轉換的歷史銷量因子的係數小於1,較高的歷史銷量就會導致百分比誤差的降低,從而提高預測精度百分比。變異係數(CoV)也是一個重要因素(如表1.2所示),但顯然不是主要因素。因此,雖然我們的結果確實證實了圖1.4中的模式,即較高的CoV項目與較高的預測誤差相關聯,從而降低了預測準確性,但CoV無法單獨作為可預測性的指標。


使用該模型作為標竿基準

對於所有地區的所有SKU和所有業務,下圖比較了實際絕對預測誤差(對數)與可預測性模型預測的誤差(log)。 y軸上的實際值來自當前使用的預測方法。 這些預測方法涵蓋了從先進的ERP計劃模塊到獨立預測軟件,基於Excel的預測技術到人工判斷預測的全部領域。 另外,我們還可以將預測軟件作為模型中的DNA因子,以了解我們的各種工具(或缺少它們)如何提高預測的準確性(錯誤),但我們會將其作為未來討論的潛在主題。


x軸表示基於項目的可預測性DNA的預測預測誤差,即該項目難以預測的預測誤差。更高的預測預測誤差意味著“更難預測”。因此,x軸代表基準預測誤差。 45度線上方的點表示實際預測誤差大於基於標竿基準預測的項目。該地區的積分錶明可能有改善的機會。我們仍然需要深入細節,看看這些差於標竿基準的結果是否是由於不正確地使用統計模型,對預測的非增值調整,指標中的計時問題,無法預測促銷或新的產品或其他因素與我們的預測過程中的細節有關。 45度線以下區域中的點標識實際預測誤差小於標竿基準預測誤差的項目。這樣的結果表明我們的預測誤差低於根據可預測性DNA模型預期的誤差。雖然令人欣慰,但這並不一定意味著沒有進一步的改善空間。在這些情況下(實際低於預測),我們可以通過使用業績較好業務的標竿基準準確度作為目標來提高目標。這一過程的機制將作為未來文章的潛在話題。

單品項基準標竿

讓我們將可預測性模型應用於一個特定項目。 該項目用於建築行業,18個月前推出:最近的預測誤差總計18,554個單位(在過去12個月中累計的60天導致的絕對誤差)。 換算成百分比,MAPE為91.7%,意味著預測精度僅為8.3%。

對於這個項目,DNA的輸入是:
■銷售訂單歷史記錄的長度= 18個月
■年度歷史銷售(單位:過去12個月)= 20,224
■CoV(過去12個月)= 0.58
■ naive 預測錯誤(單位:過去12個月)= 11,384
■客戶數量= 8
■前兩名客戶=銷售額的58.4%
■和其他DNA因素..

將這些DNA因子加載到可預測性模型中將為我們提供此SKU的基準預測準確度。 然後,我們可以將當前的結果(91.7%的MAPE)與基準MAPE進行比較,以查看是否有潛在的改進機會。 可預測性模型產生:
■預測誤差(單位)= 9,763(MAPE = 48.3%)
■預測準確度基準= 100 - 48.3 = 51.7%

所以我們對這個SKU的預測表現明顯比基準差。 事實上,他們不如 naive 模型的預測準確。 下一步是深入了解這個SKU的歷史(圖1.7),以診斷我們可能錯過了什麼。


我們可以看到,SOH在過去12個月中的月變化量相對較低。 CoV為0.58,肯定應該比最近的預測的91.7%的MAPE更具可預測性。預測難度似乎主要是由於 5-11 個月期間缺乏更新預測。最終SKU通過其初始庫存銷售,並在第11個月期間缺貨,這在第 12 個月影響銷售和預測誤差。在17個月的銷售缺乏需要深入調查原因; 是ERP系統中市場的短暫變化還是某種類型的數據錯誤?這些僅僅是深入挖掘細節的靈感中的一小部分,這反過來又暗示了一些潛在的過程改進領域:

1.實施追踪信號以確保預測與實際之間的任何持續差異得到突出顯示並迅速得到糾正。
2.部署新產品發布儀表板以確保在最初12個月的銷售期間對新產品進行更密切的跟踪。
3.創建系統警報,突出顯示當前預測大於0,最近SOH大於0,但上個月的SOH等於0的任何SKU。

目前用於預測的持續改進方法有可能通過其非常高的預測MAPE來識別這個特定的SKU,但使用可預測性-DNA方法進行基準測試的優勢在於,它還將識別當前使用常規方法表現良好的SKU指標(例如預測誤差約40%),但可能表現更好(30%或更低)。多元預測模型的功能還擴展到了解企業之間可預測性的差異,同時允許我們為每個企業生成定制的預測準確度目標。現在我們將通過一個例子。(待續)






留言

這個網誌中的熱門文章

標準差與 Wald 統計量

可能性比檢定(Likelihood ratio test)

Wold Decomposition Theorem