Sufficiency - 必須與模型綁在一起
Fisher information 的想法只有粗慥地捕抓到 information 的表示法。由於它與 likelihood 的二次趨近相關聯,所以它一般只有在大樣本才有意義。Sufficiency 的定性概念精確地捕捉到在數據中 information 的想法。 假如一個估計 T(x) 總和在數據中所有與 theta 相關的 information,則此估計 T(x) 對 theta 而言是 sufficiency。對任何其它的估計 U(x),再給定 T(x) 條件下,U(x) 的分布是與 theta 無關。所以,一旦 T(x) 為已知,U(x) 就不帶任何 theta 的額外訊息。
這是 likelihood 函式為最小滿足的基本結果。這意味著 likelihood 函式捕捉所有在數據中的訊息,同時任何其它都涉及訊息的遺失。
首先我們定義一個實驗 E 為一集合 {x,theta, P_theta(x)}。這完全是一般的定義,因為數據 x 可以是任意複雜的。 機率模型 P_theta(x) 描寫數據如何產生,如一個 iid 抽樣或一個序列的實驗等等。
定義: 在一個實驗中,一個統計 T(x) 對 theta 是 sufficient ,如果 X|T(X)=t 的一個條件分布與 theta 無關。
注意首先此定義的直覺內容: 假如 X|T=t 與 theta 無關,然後一旦我們知道 T=t ,我可以由此條件分布模擬 X如此無條件地 X 扔然遵循有真實 theta (非未知) P_theta 模型。因為 X|T=t 本身不涉及 theta,因此它不攜帶任何與 theta 有關的訊息,同時所有有關於 theta 的訊息都被包含在 T 中。
此定義技術上包含此實驗完全的描述,特別是模型 P_theta(x),所以 sufficiency 只有在此背景情境下才有意義。沒有任何參照到模型 P_theta(x),而說樣本mean 對母體 mean 是 sufficient 是錯誤並沒有意義的。也就是知道 x-bar 是不足去補捉到母體 mean 的不確定,我們也需要知道機率模型如 X1,...,Xn 是一個 iid 的 Poisson(theta) 樣本。
一個非常有用來找 sufficient 統計量的定理如下:
這是 likelihood 函式為最小滿足的基本結果。這意味著 likelihood 函式捕捉所有在數據中的訊息,同時任何其它都涉及訊息的遺失。
首先我們定義一個實驗 E 為一集合 {x,theta, P_theta(x)}。這完全是一般的定義,因為數據 x 可以是任意複雜的。 機率模型 P_theta(x) 描寫數據如何產生,如一個 iid 抽樣或一個序列的實驗等等。
定義: 在一個實驗中,一個統計 T(x) 對 theta 是 sufficient ,如果 X|T(X)=t 的一個條件分布與 theta 無關。
注意首先此定義的直覺內容: 假如 X|T=t 與 theta 無關,然後一旦我們知道 T=t ,我可以由此條件分布模擬 X如此無條件地 X 扔然遵循有真實 theta (非未知) P_theta 模型。因為 X|T=t 本身不涉及 theta,因此它不攜帶任何與 theta 有關的訊息,同時所有有關於 theta 的訊息都被包含在 T 中。
此定義技術上包含此實驗完全的描述,特別是模型 P_theta(x),所以 sufficiency 只有在此背景情境下才有意義。沒有任何參照到模型 P_theta(x),而說樣本mean 對母體 mean 是 sufficient 是錯誤並沒有意義的。也就是知道 x-bar 是不足去補捉到母體 mean 的不確定,我們也需要知道機率模型如 X1,...,Xn 是一個 iid 的 Poisson(theta) 樣本。
一個非常有用來找 sufficient 統計量的定理如下:
留言
張貼留言