分開計算與合併計算答案不一樣 - 
辛普森悖論(Simpson's Paradox)

在美國,學校或政府機構如果被指控有種族和性別歧視,往往很容易遭到外界的罵名,因此處理起來都得戰戰兢兢。1973 年,加州大學柏克萊分校( University of California, Berkeley )就曾被人指控,在研究所申請上歧視女性。指控方提出當年柏克萊研究生的入學數字,可發現男生的錄取率 44% 比女生 35% 還高,明顯歧視女性,如圖1所示。

圖1. 1973年柏克萊男女研究生的入學數字
(資料來源:維基百科 https://en.wikipedia.org/wiki/Simpson%27s_paradox)

結果,經過調查之後,發現一件有趣的事。法院檢視了 85 個系所的男女錄取率後發現,並沒有歧視女性的情況產生,反而有些系所的女性錄取率比男性還高。

舉例來說,圖2是前六大系所的入學申請統計資料。總計男性錄取率 45% ;女性錄取率 30% ,表面上看來女性錄取率似乎比男性還來的低。但進一步分析各系所的錄取率可發現,六大系所中,有四系的錄取率女性高於男性。其中,A 系女性的錄取率高達 82%,明顯高於男性錄取率 62%。

圖2. 1973年柏克萊某六系男女研究生的入學數字
(資料來源:維基百科 https://en.wikipedia.org/wiki/Simpson%27s_paradox)

以上發生在柏克萊大學的故事,也被該校的比克爾(P.J. Bickel)教授等人,發表在1975年2月7日的《科學(SCIENCE)》期刊上。

而這種全體(全校率取率)與個別群體(系所錄取率)之間,存在相反差異的現象,最早是由愛德華·辛普森( Edward H. Simpson )於1951年所發表的論文中所「提到」(非「提出」)(如圖3所示),所以就被後人稱為「辛普森悖論( Simpson’s Paradox )」。

 

圖3. 愛德華·辛普森(Edward H. Simpson)於1951年所發表的論文
(資料來源:E. H. Simpson, 1951, The Interpretation of Interaction in Contingency Tables, Journal of the Royal Statistical Society. Series B (Methodological), Vol. 13, №2(1951), pp. 238–241. Published by: Wiley for the Royal Statistical Society, StableURL: http://www.jstor.org/stable/2984065)

至於為何會產生辛普森悖論?我們一樣以柏克萊的例子進行說明。綜觀圖2,我們可發現面對錄取率較高的系所,男性申請者遠多於女性,而女性則傾向申請錄取率較低的系所。這就是將全體資料拆解成各個群體資料後,因為背後存在著「干擾因素」,所以造成了辛普森悖論。

總之,辛普森悖論大致可以歸結出一個很簡單的現象。那就是很多事情分開來看都對,合起來檢視卻會得到另一種完全不同的結論,反之亦然。

作者 : 羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)

繪圖 : 傅嬿珊、盧曉慧

更多商普好文推薦

回到頂端