頻率推論 vs. 貝葉斯推論
「敘述性統計」和「推論性統計」是現代統計學的兩大主軸,而推論性統計更是統計學中的重中之重,因為要從小樣本推論到大母體的過程,都仰賴推論性統計。值得一提的是,推論統計裡,還有頻率推論(Frequentist inference)和貝葉斯推論(Bayesian inference)兩大派別,在目前傳統統計邁向資料科學與大數據之際,重點也從「頻率推論」移往「貝葉斯推論」發展。
我們先來看一下,推論統計學裡的靈魂人物,再談重點何在?在「頻率推論」與「貝葉斯推論」兩大派別中,「頻率推論」的代表人物是羅納德·費雪(Ronald Fisher,1890~1962)(圖1);「貝葉斯推論」的代表人物是托馬斯·貝葉斯(Thomas Bayes,1702~1761)(圖2)。
(Thomas Bayes,1702~1761)
所謂「頻率推論」,又稱「虛無假設顯著性檢定(null hypothesis significance testing,NHST)」。20世紀時,頻率推論佔了推論統計的主導地位,在許多研究領域裡,經常會看到像是「p值」和「信賴區間」等指標,然而到了資料科學與大數據的時代,貝葉斯推論在機器學習上的應用,已經有了巨大的復興。以下簡單說明兩者的差異,如圖3所示。
自從費雪(Ronald Fisher, 1890–1962)在1925年出版的《研究工作者的統計方法(Statistical Methods for Research Workers)》一書中建議,將p<0.05當成一個檢驗標準,於是乎從此就誕生了一個觀念,只要p<0.05,就代表有統計顯著性(statistical significance)。事實上,p值與統計顯著性有很大的局限,人們對於p值也產生很大的誤解。這些都是頻率推論遭人質疑的地方。
不過,回過頭來看,過去因為電腦技術和網路技術不足,主張和認同「頻率推論」的人認為,只要抽樣方法正確、樣本足夠,加上這個方法已經使用了100多年,它也算得上確實有效。
至於所謂的「貝葉斯推論(Bayesian inference)」,它的理論基礎是「貝氏定理」開始,意即在已知一些條件下,可以計算出某特定事件的發生機率,由於它背後的邏輯明確,加上有了先驗機率,所有的計算有明確的演繹邏輯推演。但批評的人認為,先驗機率相當主觀,而且不同的人會產生不同的先驗,因此可能得出不同的後驗機率與結論。
值得一提的是,各位可能覺得很奇怪,表1中,可以看到頻率推論必須依賴大量樣本。以街頭訪查為例,可接受的樣本數要達數百份,而民意調查的公認標準則要1067份(95%信賴水準和3%的誤差區間)。早年因為施測不易,這樣的數量可謂是「大量樣本」。至於貝葉斯推論則需少量樣本即可,但現在大數據分析不都需要大量樣本嗎?
事實上,在進行貝葉斯推論時,確實只需要少量樣本即可執行,但貝葉斯推論一樣適用於大樣本的情境(重點在於背後需要大量的計算)。而且,真正的多寡,其實都是相對比較而來。畢竟做民意調查分析時,一千份問卷已經算是大樣本,但在進行大數據分析時,一千筆資料只能算是很小的數字。
那到底該採用頻率推論或是貝葉斯推論呢?MIT麻省理工學院數學系傑里米·奧爾洛夫(Jeremy Orloff)教授指出一個方向:頂尖的統計學家之間所形成的共識是,解決複雜問題最有效的方法,通常是在兩派學者共同合作後,擷取其中的最佳見解(The consensus forming among top statisticians is that the most effective approaches to complex problems often draw on the best insights from both schools working in concert.)。
作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)
繪圖:彭煖蘋