三個錦囊妙計處理離群值

在業務預測的實踐中,我們經常遇到包含異常值的歷史數據 -在給定時間段中,數據值異常大或小,遠高於或低於我們預期。最簡單的(也是最常見的)做法是“屏蔽”異常值(即將其從數據中移除)並忽略它們。難道它們不只是讓人難以以建立一個好的歷史模型的煩惱嗎?


刪除或調整異常值可以使時間序列數據配適一個更簡單,更美觀的模型。這是工作中的“簡約原則”。該模型基於更規矩的數據,不會傳播真實歷史的不穩定高峰和低谷,並且最終會得到更好,更穩定的未來視角。事實上,未來開始看起來規規矩矩,而且可以預測,這就是預測者(和業務經理)喜歡它的方式!然而,無用的掩蓋異常值可能會有一個醜陋的缺點。

Eric Stellwagen 指出,離群值“向我們大喊”關於在歷史數據中的額外風險和不確定性。簡單地忽略它們可能是危險的,導致對我們的預測過度(並且不合理)的信心。然後他介紹了三種更好的異常處理方法:

■ 異常校正(Outliers Detection)
■ 分離需求流(Separation of Demand Streams)
■ 事件建模(Event Modeling)

重要的是要記住過去發生的不尋常和令人討厭的事情,並且可能在將來再次發生。當我們盲目地從我們的歷史數據中刪除異常值時,我們忽略了關於這個世界真的有多惡劣的重要信息來源。

離群值是一個超出數據預期範圍的數據點(即,它是一個異常大或小的數據點)。如果您忽略數據中的離群值,則可能會對預測產生重大負面影響。本文調查了三種不同的方法來預測包含離群值的數據,討論了每種方法的優缺點,並提出了何時最好使用每種方法的建議。

選項#1:離群值校正

減少離群值影響的簡單方法是在生成預測值之前用更正常典型的值替換離群值。這個過程通常被稱為離群點校正。許多預測解決方案提供自動化程序來檢測異常值並在預測之前“修正”歷史記錄。修正嚴重離群值的歷史通常會改善預測。但是,如果離群值不是真的嚴重,糾正它可能會造成更多的傷害而不是好的。當你糾正一個離群值時,你將重寫歷史記錄比實際更平滑,這將改變預測並縮小置信限度。如果不要更正,這將導致預測不准確和不現實的置信限度。

建議:

1.如果知道離群值的原因,則在採用離群值更正之前應考慮其他方法(如下面的選項#2和#3)。

2.應該謹慎執行離群校正。使用自動檢測算法來識別潛在的候選對像是非常有用的; 然而,理想的檢測到的離群值應由預測者單獨檢查以確定是否適合修正。

3.如果必須使用自動的離群值檢測和糾正程序(例如,如果大量的預測杜絕了人為審查),那麼識別和糾正離群值的閾值應設置得非常高。理想情況下,閾值將通過對數據的一個子集進行實驗來憑經驗進行校準。

選項2:分離需求流

有時,當知道離群值的原因時,將時間序列分成兩個不同的需求流並單獨進行預測可能很有用。考慮以下三個例子。

示例A:製藥公司對給定藥物的需求包括處方藥(銷售)和免費商品(例如免費分發給醫生的樣品)。在免費商品分配的時間上,在總需求的時間序列中導致了離群值。分離需求流會產生一個無離群值的處方簽序列,並允許為每個序列使用不同的預測方法 - 這是合適的,因為在兩個序列中產生需求的驅動因素是不同的。

示例B:製造公司的需求通常包括來自其經銷商的訂單。在不尋常的事件的回應,政府發布了大量一次性訂單,為需求的序列引入了重要的離群值,但這不影響經銷商的基本需求。分離需求流會產生沒有離群值的經銷商需求序列,並且可以將政府需求序列的預測簡單地設置為零。

實施例C:食品和飲料公司從商店貨架和促銷展示架(例如,端點展示架,銷售點展示架等)銷售其產品。它可以訪問兩個獨立的需求流。儘管單獨預測這兩個序列很有誘惑力,但它可能不是最好的方法。雖然促銷展示會增加總需求,但它們也會蠶食基本需求。在這個例子中,使用可適應促銷的預測方法(例如,事件模型,回歸等)預測總需求可能會更好。

建議:

■只有了解導致離群值的不同需求來源時,才應考慮分離需求流。

■如果需求流可以通過“手術清潔”方式分開,您應該考慮分離需求流並分別進行預測。

■在需求流不能完全分離的情況下,您通常最好使用單個時間序列。

選項3:使用離群值建模的預測方法

異常值可能是由你知道的事件(例如促銷,一次性訂單,罷工,災難等)引起的,也可能是由你不知道的事件引起的(也就是說,你知道這個點是不尋常的,但你不知道為什麼)。如果您了解創建離群值的事件,則應考慮使用明確可將這些事件建模的預測方法。事件模型是指數平滑的延伸,特別適合於此任務。它們很容易構建並適合自動化。另一種選擇是動態回歸。與僅將預測結果基於項目過去歷史記錄的時間序列方法不同,事件模型和動態回歸是因果模型,它允許您引入其他信息,如促銷計劃,業務中斷時間和解釋變量(在該情況下的動態回歸)。通過捕獲對事件的影響作為整體預測模型的一部分,這些技術通常可以提高預測的準確性,並提供對事件影響的深入見解。

建議:

■在出現離群值的原因已知的情況下,您應該考慮使用明顯建模事件的預測方法。

概要

忽略數據中的大量離群值通常會導致預測不准確。 預測含有離群值的數據的最佳方法取決於離群值的性質和預測人員的資源。 在本文中,我們已經討論了三種方法 - 離群值更正,分離需求流和離群值建模 - 當根據包含離群值的數據創建預測時,可以使用這三種方法。

留言

這個網誌中的熱門文章

標準差與 Wald 統計量

可能性比檢定(Likelihood ratio test)

Wold Decomposition Theorem