不變性原則
可能性函式代表一個固定參數的不確定性,但它不是一個機率的密度函式。 那如何處理參數轉換呢? 我們將會假設一個一對一轉換,但這想法能普遍適用。在第一個 binormial 例子中有 n = 10 同時 x = 8,此theta1 = 0.8 vs theta1 = 03 的可能性比為:
L( theta1 = 0.8 ) (0.8)^8*(1 - 0.8)^2
------------------- = ------------------------- = 208.7
L( theta1 = 0.3 ) (0.3)^8*(1 - 0.3)^2
i.e. 在給定的數據之下,theta 為 0.8 是比 theta 為 0.3 大約多 200 倍的可能。
假設我們對將 theta 表示成 logit 度量有興趣,如:
theta
phi = log { ------------- } ,
1 - theta
因此,直覺上我們關於 phi = phi1 = log (0.8/0.2) = 1.39 vs. phi=phi2 = log(0.3/0.7)= -0.85 相對訊息應該是:
L*(phi1) L(theta1)
------------ = -------------= 208.7
L*(phi2) L(theta2)
那也就是,我們的訊息對參數化(參數轉換)的選取應該是有不變性。
這在貝氏公式並非如此。 假設 theta 有一個無訊息的先驗函式; 後驗函式即為
f(phi|x) = f(theta(phi)|x) * | partial theta/partial phi |
exp(phi)
= f(theta(phi) | x) * -------------------
( 1 + exp(phi) )^2
在此新 phi 度量關於 phi1 與 phi2 相對訊息現在等於
f(phi1|x) L(theta1) exp(phi1) * ( 1 + exp(phi2))^2
------------ = ------------- * ----------------------------------------
f(phi2|x) L(theta2) exp(phi2) * ( 1 + exp(phi1))^2
= 208.7 * 0.81 = 169.0
因此,可能性比的不變性性質與貝氏安排給參數一機率分布的習慣不相容。
假如不知道 theta 會在哪邊,自然我們不應該會知道 log { theta / (1-theta) } 或 theta^2 或 1/theta 會在哪邊。這似乎是合理的。換句話說,無論我們如何對問題建模,我們應該對參數是一樣無知才對。 但在貝氏的世界中,這不是真的。假如我們假設 theta 均勻的在 0 與 1 之間,則 theta^2 比起 1 而言,它是較可能接近 0。
注意可能性比的不變性性質非是一個反覆抽樣原則的意涵,故它不是一個頻率學派的必要條件。無論如何,毫無疑問頻率學派接納不變性。這與頻率學派拒絕接受對一個固定參數有分布的實際情況,故對為參數轉換所導致的一個 Jacobian 項並沒有意義。
站在貝氏的立場,真實地有些真理的成分。去想大家對於機率未知參數 theta, 但已知它在 0 與 1 之間,就像我們是在 theta^100 都一樣無知,這件事似乎迂腐。 我可能會打賭後者會比 1 相較更靠近 0 ( 假如 100 次方對您而言還不夠,那就讓它是 1000 或是 10000), 因此這就違反不變性原則。 唯一的方式去符合轉換之後無知程度的變化程度是採用一個參數的機率密度(成為一個成熟的貝氏學派)
無論如何,失去可能性比的不變性將是在實際上的重要損失:
- 首先,我們將損失 MLE 的不變性
- 每一參數化(轉換)的可能性可能伴隨需要一個 Jacobian 項。這項就必須要由一個先驗密度開始接下來的推導來計算。
- 我們就被迫要明著指定一個先驗密度
單就這些理由可能就足以將不變性的實用價值給正當合理化。不管如何,可能性比的不變性應該只視為一方便的公理而不只是一個自證的真理。
(這些討論不能套在隨機效應上,哪裡一個參數能有一個客觀的分布。這裡可能性的不變性是不需要的,因為可能性可以作用得像一個密度)
Reference: In All Likelihood: Statistical modeling and Inference.
留言
張貼留言