統計問題與模型
隨機元素
在統計問題中,有明顯的隨機元素無法以算術法則處理。以交通為例,我們直覺上接受有不同的意外事故或隨機事件會造成死亡數的增加;事實上如果這兩個數字完全相同我們可能會驚訝。因此,統計方法需要隨機模型去處理這方面的問題。而這些模型與方法的發展是統計的數學或演譯面向。
雖然模型的數學操作是精確沒有疑義的,但模型的選擇本身卻是不確定的。記住這一點很重要,因為大部份統計分析的正確性是建立在模型是正確的條件下。
這是權衡 - 我們分析時需要一些模型(尤其當只有稀疏的數據時)來處理,但錯誤的模型卻會導致錯誤的結論。
歸納的過程
統計問題是歸納的: 他們處理的問題是由觀察特定現實的結果所產生的。這些現實通常是由某個實驗或研究的產出。這些問題典型是較觀察值本身更加一般化: 他們問一些不是直接觀察到的,而是以某種方式含在這些觀測數據中。我們說我們由數據"推測"某些事情。以交通死亡數為例,在說明解釋產生隨機不同的意外事故之後,我們想要去比較的潛在事故/死亡率。
如在數學上的歸納問題,有時只有需要一些部份的可獲得訊息用來建立新理論。在一個演譯問題上,為了推導主要結論必須使用所有數據,無法接受略掉任何部份的數據。與統計推斷有某些相似之處的歸納問題是法庭審判 - 確定被告有罪或無罪。證人發誓說“真理,全部真理,只有真理”體現了歸納過程的要求。
統計不確定有兩類:
1. 隨機的不確定: 包含固定參數與隨機結果的不確定性。關於參數的不確性一般可以用進行大量的實驗來降低。許多在統計推論上的概念都是處理這種不確定性,如樣本分布、變異、信心水準、p-value 等。
2. 歸納的不確定: 歸咎於訊息的不完整,因為我們可能不能量化或控制這類的不確定性,這種是較困難處理。
數學上來說,我們可以視隨機不確定性是在一個所假設的模型上的條件下而存在的。在模型內的數學是完全精確的而且是在統計學家的控制當中。然而,模型選擇的本身卻帶有歸納的不確定性,這不只不能精確而且統計學家也無法掌握。
這兩類型的不確定性尤其在大的數據集時會被放大。隨機的不確定性變得比較不重要,而歸納的不確定性變得非常重要: 如
我們選對模型類別了嗎?
我們可以一般化我們在數據中的發現嗎?
我們已考慮或量測所有相關的變數嗎?
我們問對問題了嗎?
給定一數據,依它們被收集的方式,通常有一些不確定,如它的變數定義、問題的用字與順序、樣本的代表性等等。
from In All Likelihood: statistical modeling
留言
張貼留言