淺談相關與因果
有句俗話說「真相只有一個」,然而在現實生活中,有些事情的真相其實不是很容易釐清,要確定一件事的因果關係,更是不簡單,因為現實環境與我們所處的世界太過複雜,同時往往都有干擾因素(Confounding factors)存在,真相只有一個的說法,往往引發爭議。
在商業世界中,也是一樣。一件商品之所以會受到喜愛,有時的確是因為它的品質佳、功能好,但很多東西卻常常莫名其妙的爆紅,原因只在它可能受到名人一時的加持。其中究竟只是相關,還是具有因果關係。往往必須深入探究,才會知道。
所謂「相關」,意指兩項變數之間,存在著某一種關係。統計學中使用「相關係數」來解釋變數之間關係的密切程度;至於「因果」則指兩項變數之間,存在著一種必然的相互依存關係。在這種情況下,「相關性研究(Relation Research)」主要在確認兩變數間或兩個以上的變數之間,是否有某種關係存在;至於「解釋性研究(Explanation Research)」則在於瞭解並嘗試說明這兩個變數的關係,是如何發生的。因此,解釋性研究通常涉因果關係的驗證。
在進行數據分析時,我們必須要注意以下的問題:
1.偽相關( spurious correlation)
在tylervigen.com的網站上[1],介紹了一些有趣的偽相關個案。以下簡單引用並說明。
2000年到2009年,全美擺放在街頭的電動玩具的總收入(Total revenue generated by arcades)與在美國獲得電腦科學博士學位的人數(Computer science doctorates awarded in the US),相關係數高達0.9851,如圖1來看,兩條曲線幾近重合,但其實兩者一點關係都沒有。
1999到2009年掉進游泳池淹死的人數(Number of people who drowned by falling into a pool),與尼可拉斯·凱吉演出電影的數目(Films Nicolas Cage appeared in),相關係數高達0.66。表面上看來,只要他某一年電影演的多,當年慘遭溺斃的人數也就多,衰運連連,但其實兩者也是偽相關。
2. 相關不等於因果
兩項變數之間如果有因果關係,背後一定「相關」。但當兩項變數之間有顯著的相關時,未必表示兩者一定有因果關係。
[1]資料來源:http://tylervigen.com/spurious-correlations、The Link Between Chocolate and the Nobel Prize (Messerli, F. The New England Journal of Medicine, published online Oct. 10, 2012)
作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)
繪圖者:傅嬿珊