發表文章

目前顯示的是 7月, 2017的文章

迴歸中的 White Noise

圖片
在作迴歸時,一般都會假設其 random shock 或 white noise 是 iid - 彼此獨立且分布相同。但是當迴歸涉及的數據為時間序列時,這些 white noise 通常是 autocorrelated。 當這些 white noise 是 autocorrelative 而我們又沒加以更正時,假如我們直接以 OLS 來估計其係數,會有以下的結果: 1. 每個參數的估計不在是最佳的(不再有最小的變異) 2. 殘差的變異很可能低估 3. R-squared 很可能高估 4. F 與 t 統計量無效 5. 因為 autocorrelation 在殘差中,從公式求得的預測將較不精準(因為我們忽略了在其中的有用資訊) 當殘差中有 autocorrelation 時,我們可用 ARIMA 去模型。將此模型代入迴歸式,將獲得 DR: ( 迴歸的 white noise N_t 被代成 ARIMA 中的 a_t ,a_t 變成此 DR 的 white noise or random shock) 上述的重點在於: 迴歸的 white noise 用一 ARIMA(1,0,1) process 來描述其時間模式。另一種可表示成: 由上式就可以很清楚的看見 a_t 就是 Y_t 減去 DR 配適或預測的 Y_t_hat。上述 DR 的參數我們無法直接用 OLS ,而需要用 MLE 來估計。

The Wold Representation Theorem 又來了

圖片
因為太重要。 許多不同動態特徵符合共變異穩定(covariance stationary)。因此,假如我們只知道某一數列為共變穩定,不是完全清楚哪種模型我們可能可以配適來描述數列的演變。趨勢與季節的模型不能用,因為它們是特別用來模型非穩定的部份。實際上,在配適趨勢與季節部份之後剩下的,我們現在需要一個適當的模型 - 一個共變穩定殘差的模型。 Wold's representation 定理意味著此合適的模型。 定理:    令 {y_t} 是任一均值為 0 共變穩定的 process。則我們可以將它寫成: b_0 =  1 且 簡而言之,對任何共變穩定序列的正確模型是一些無限滞后的白噪音 -  稱作  Wold representation.  此 epsilon 通常稱為 innovations,因為它們是我們假設用了一個特別好的預測所對應 one-step-ahead 的預測誤差。那就是說,此 epsilon 表示由的 y 演進中那些基於過去 y 的線性不可預測的部份。 也要注意到 epsilon 間 uncorrelated ,但不需要它們彼此獨立。 再次強調,只有 Gaussian 隨機變數是沒有 correlation 就是彼此獨立。同時  innovations 不一定需要是 Gaussian 分布。 在上述中提到 process 的均值為 0,好像是個限制。其實如果當均值不為 0 時只要將序列減掉均值即可(當然如此做不會讓此序列失去它的一般性)。 Wold's 定理告訴我們:以公式表示共變穩定時間序列的預測模型時,我們只需要考慮模型的形式: b_0 =  1 且 我們稱此為 general linear process。"general" 是因為指任何的共變穩定 process 可以寫成如此形式;linear 是因為 Wold representation 將序列表示為序列本身的 innovations 的線性函數。

伪迴歸

看到 R-squared 等於 95% 以上,然後 t-test 十分顯著,’太好了" 十分高興的就以為此變數與銷售量真的有關係。 其實,此時是正要小心的時候。尤其是變數可能為不穩定時,會大大的影響 R-squared 與 t-test 的結果。 當變數為不穩定時,建議先做差分。之後,在檢查它們間的 R-squared 與 t-test 結果。

時間序列過程

圖片
A time series is a sequence of observations on a variable taken at discrete intervals in time.1 We index the time periods as 1, 2, …, T and denote the set of observations as ( y1 y2 , , ...,yT ). We often think of these observations as being a finite sample from a time-series stochastic process that began infinitely far back in time and will continue into the indefinite future: pre-sample sample post-sample  Each element of the time series is treated as a random variable with a probability distribution. As with the cross-section variables of our earlier analysis, we assume that the distributions of the individual elements of the series have parameters in common. For example, we may assume that the variance of each y_t is the same and that the covariance between each adjacent pair of elements cov ( y_t ,y_t −1 ) is the same. If the distribution of y_t is the same for all values of t, then we say that the series y is stationary, which we define more precisely below. The aim of ou...

Sufficiency - 必須與模型綁在一起

圖片
Fisher information 的想法只有粗慥地捕抓到 information 的表示法。由於它與 likelihood 的二次趨近相關聯,所以它一般只有在大樣本才有意義。Sufficiency 的定性概念精確地捕捉到在數據中 information 的想法。 假如一個估計 T(x) 總和在數據中所有與 theta 相關的 information,則此估計 T(x) 對 theta 而言是 sufficiency。對任何其它的估計 U(x),再給定 T(x) 條件下,U(x) 的分布是與 theta 無關。所以,一旦 T(x) 為已知,U(x) 就不帶任何 theta 的額外訊息。 這是 likelihood 函式為最小滿足的基本結果。這意味著 likelihood 函式捕捉所有在數據中的訊息,同時任何其它都涉及訊息的遺失。 首先我們定義一個實驗 E 為一集合 {x,theta, P_theta(x)}。這完全是一般的定義,因為數據 x 可以是任意複雜的。 機率模型 P_theta(x) 描寫數據如何產生,如一個 iid 抽樣或一個序列的實驗等等。 定義: 在一個實驗中,一個統計 T(x) 對 theta 是 sufficient ,如果 X|T(X)=t 的一個條件分布與 theta 無關。 注意首先此定義的直覺內容: 假如 X|T=t 與 theta 無關,然後一旦我們知道 T=t ,我可以由此條件分布模擬 X如此無條件地 X 扔然遵循有真實 theta (非未知) P_theta 模型。因為 X|T=t 本身不涉及 theta,因此它不攜帶任何與 theta 有關的訊息,同時所有有關於 theta 的訊息都被包含在 T 中。 此定義技術上包含此實驗完全的描述,特別是模型 P_theta(x),所以 sufficiency 只有在此背景情境下才有意義。沒有任何參照到模型 P_theta(x),而說樣本mean 對母體 mean 是 sufficient 是錯誤並沒有意義的。也就是知道 x-bar 是不足去補捉到母體 mean 的不確定,我們也需要知道機率模型如 X1,...,Xn 是一個 iid 的 Poisson(theta) 樣本。 一個非常有用來找 sufficient 統計量的定理如下:

Time Series And Stochastic Process

剛在想一個問題: 時間序列背後的 process 為何? 時間序列是一組觀察值,依時間順序給予index。而其背後的 process 是指產生此時間序列的模型{\Y_t}。Y_t 為隨機變數(random variables)。 這問題在此的討論很有趣: https://stats.stackexchange.com/questions/126791/is-a-time-series-the-same-as-a-stochastic-process 可以細細品味各家對這問題的看法。

SES 與 ARIMA(0,1,1)

經常看到書上提到 simple exponential smoothing 與 ARIMA(0,1,1) 相同或 SES 是最佳的 ARIMA(0,1,1)。 這是怎麼一回事? Simple Exponential Smoothing (SES) 是一種方法而 ARIMA(0,1,1) 是一個模型。說它們相同,必須從它們所產生的預測值這個角度來理解。 SES 預測公式給定如下: x ^ t + 1 = α x t + ( 1 − α ) x ^ t  (1) 我們預測在時間 t+1 的值用在時間 t 的觀察值與預測值的加權平均 。 這個簡單的 one-step-ahead 預測方法剛看似乎對數據而言不需要一個模型。事實上,這個方法等同於 使用 一個沒有常數項的 ARIMA(0,1,1) 模型。 最佳的 ARIMA(0,1,1) 是怎麼一回事 ? 最佳的程序是對觀察到的數據集去配適一個 ARIMA(0,1,1) 模型,同時利用此結果來決定  α 值。 對已經觀察到的數據而言造出最好的   α ,  在這種角度而言,這是最佳的。 [i.e. 用 SES 找出的參數就是 ARIMA(0,1,1) 最佳的參數] 從 ARIMA(0,1,1) 的角度,因為 ARIMA(0,1,1) 模型是  x t  - x t-1 =  w t  +  θ 1 w t-1 .  等於  x t   =   x t-1  + w t  +  θ 1 w t-1 .  ARIMA(0,1,1) 的預測結果  t+1 , 我們由  x t+1   =   x t  + w t+1  +  θ 1 w t  ,因為 w t + 1 = x t + 1 − x ^ t + 1 , 所以  x ^ t + 1 = = = x t + θ 1 w t x t + θ 1 ( x t − x ^ t ) ( 1 + θ 1 ) x t − θ 1 x ^ t . 令 α = (1+ θ 1 ) ...