謊言,該死的謊言和統計


在統計數據分析時,很重要去認知到除了數據本身的隨機性之外,歸納的不確定性通常會出現的。由於歸納過程和統計問題的經驗性質,所以爭論有時是不可避免的。

以交通事故死亡例子來說明爭議如何產生.
假如死亡數由 170 增加到 300,這似乎像一個真的改變,說事故率增加這不會有爭議 : 這也就是說不確定性是小的。 但假如進一步細查揭示了一個主要交通事故涉及 25 輛車及大量的死亡數,或者是一場涉及 40 人死亡的巴士意外呢?

在這一點我們開始思考有可能一個較好的方式去審視這個問題是藉著事故數而不是死亡數。
也有可能大部份的意外都發生在冬天,而在此之前它們分布在一整年。可能年紀較輕的駕駛增加,這樣就產生了將數據依年齡分組的需要。 藉著駕駛經驗的年數來分組可能較合理,但這樣的定義方式只有對駕駛有意義,但這些死亡數中還有包含乘客與行人。

這樣的歸納過程出現兩個問題: 一是歸納過程傾向去增加隨機不確定性。因為隨著原來的觀測值被分割成較小解釋性的分組,我們定會比較小的數據集(更不確定了~)。另外的問題是決定 - 在找一個解釋時,在哪裡停止。這問題沒有正式或精確的答案,如此統計學家或科學家就以不同情況來進行不同的處理,這裡通常都訴諸一個判斷。最接近的指導方針是停止在一個點上,哪裡我們有一個合理的控制不確定性,哪裡會推遲決定的那些其他利益因素,存在太多的不確定性。統計學家各有不同的經驗、專業、洞見、與偏見,所以從相同的觀測數據,他們可能會得出不同的結論。當心!  這就是我們可以找到的"謊言,該死的謊言和統計"的所在之處。

from All In Likelihood: statistical modeling and inference using likelihood

留言

這個網誌中的熱門文章

標準差與 Wald 統計量

可能性比檢定(Likelihood ratio test)

Wold Decomposition Theorem