Chapter 04 統計思考

一、大海如何撈針-貝爾斯尋理論的運用

  一九六八年五月廿二日,載有九十九名乘員的美國海軍核子動力潛艇「天蝎號(SSN-589)」(如圖1)於執行一項重要任務時,在葡萄牙和西班牙西部的大西洋深水區竟然失去聯繫,由於當時美蘇兩個超級強權還處於冷戰期間,一艘核子動力潛艦失去蹤影,事關重大,美國軍方經過搜索後卻未能一直未能找到官兵和潛艦的遺骸,但美國政府已決定,即便花費再高代價,說什麼也要把它找回來。

  「六度分隔理論」的概念,源自於1929年匈牙利作家卡琳西‧佛里吉斯(Karinthy Frigyes)的短文《鏈鎖(Chains)》。大約四十年後,1967年美國社會學家史坦利‧米爾格拉姆(Stanley Milgram)依據這個概念做過一次連鎖信實驗證明,嘗試證明平均只需要6步就可以聯繫任何兩個互不相識的人,他後來還因此宣稱六度分隔理論在美國實際存在。

0_AG9NxLOJRQrpAb_S

圖1. 天蝎號(SSN-589)

資料來源:https://en.wikipedia.org/wiki/USS_Scorpion_(SSN-589)

  這艘於一九五八年建造,兩年後下水服役的潛艇,長七十六點七一公尺,重約三千噸的鰹魚級潛艇,當時據說是在執行一項尋找遺落的氫彈任務時,魚雷發生爆炸而發生意外,由於兩項機密一旦落在敵人手裡,不僅是美國軍方的重大損失,而且會讓美國政府顏面無光。因此美國海軍特別成立專案辦公室,聘請科學家來協助,並由約翰‧克雷文(John P. Craven)博士擔任首席科學家,全力搜尋它的遺骸。

  要知道,任何再龐大的物體,掉進面積佔地球十分之七的海裡,要找到它都可以說是「海底撈針」,因為海裡不僅是立體的三度空間,而且也像地表上有山谷和深丘,而當時接下任務的克雷文博士,則打算利用十八世紀就已發表的「貝氏定理」然後逐漸改良而成的「貝葉斯搜索理論(Bayesian search theory)」,企圖找到潛艦的殘骸。

  「貝葉斯搜索理論」顧名思義是透過貝氏定理來協助搜尋,但它的原理,其實是在「先驗機率(Prior probability,又稱事前機率)」的基礎上,加入新資訊,以更新先驗機率,而經過更新後的機率則稱為「後驗機率(Posterior probability,又稱事後機率)」。

  克雷文怎麼做呢?首先,他訪談了經驗豐富的潛艇指揮官與專家,建立天蝎號可能沉沒地點的假設,並從先前的航跡圖,確認出潛艇最有可能掉落在某個半徑20英里的海域。

  接著,克雷文將這個海域劃分成由許多一小格一小格的正方形所形成的網格。而每個方格裡都包含兩項機率值,p與q。其中,p代表潛艇殘骸位於此一方格的機率,而此機率為訪談專家後所獲得的「主觀機率」,q代表潛艇殘骸落於此方格中,會被尋找到的機率(它是水深函數,因為海水深度越深,被尋獲機會越小)。

  克雷文下令,打撈船首先搜尋機率最大的那一格(先驗機率為p)。如果機率最大的那個方格確定搜尋不到,其他方格的機率就會跟著變動。

  由於對其他的方格來說,在還未搜尋之前,潛艇殘骸落在其他方格的先驗機率為1-p。一旦搜尋過機率最大的方格後,又確定找不到殘骸的情況下,潛艇殘骸落在其他方格的機率,應該會跟著提高。

用數學式來看,貝氏定理的公式如圖2:

圖2. 貝氏定理

P(A|B)是指在事件B發生的情況下,事件A發生的機率。

P(A∩B)是指A與B同時發生的機率。

P(B)是指事件B發生的機率。

其中P(A|B)亦可推算為以下公式(圖3):

圖3

根據以上公式,將可能的情境帶入:

A:潛艇在格子裡

B:找到潛艇

因此

潛艇在格子裡P(A)的機率為p

潛艇在其他格子裡P(A’)的機率為1-p

潛艇在格子裡且被找到的機率P(B |A)為q

潛艇在格子裡且不被找到的機率P(B’|A)為1-q

潛艇不在格子裡且不被找到的機率為P(B’ |A’)為1

當我們想知道在此方格中,找不到潛艇後(即B’),但潛艇會落於其他方格的機率。

P(潛艇落於其他方格 | 找不到潛艇)(圖4)

圖4

  所以,找不到潛艇後,落在其他方格的機率,從1-p,提高到(1-p)/(1-pq),提高了1/(1-pq)倍。

  接著,依序繼續尋找機率最高的另一個方格,如此反覆循環,直到尋獲到殘骸為止。換句話說,首先搜索最有可能找到潛艇的網格,接著搜尋另一個可能性較小的網格,然後依序逐步搜索次一級的方格(由於燃料、航程、水流等限制仍然有可能),一直到在可接受成本之情況下,確定已沒有找到目標的機會為止。

  貝葉斯方法的優點在於,所有可用資訊都被連續使用。同時,這項方法可以針對給定的成功概率,自動估算出機率大小(成本)。也就是說,你可以在開始搜索之前,就可先假設「未來5天的搜尋中,有65%的機會找到它。在10天的搜索後,找到的機率可以上昇到90%」因此,可以在將資源投入搜索之前,估算出搜索的經濟可行性。

  美國海軍後來就依照這份機率圖,並開始搜尋。最後,在天蠍號失聯5個月之後,終於找到了殘骸,同時位置與預測的地點只相隔220碼(大約二百公尺)。而「貝葉斯搜索理論」也就成為之後「大海撈針」用來協助搜尋、探索落海物件時的有效工具。

二、見人之所未見 — 倖存者偏差

  無論您是否曾經看過第二次世界大戰的空戰電影「英烈的歲月(Memphis Belle)」,但大概可以想像一下,一群年輕小夥子在二次世界大戰期間,駕著B-17轟炸機,從英國飛越英吉利海峽,深入歐洲內陸去轟炸德國的場面。其中每一次去執行轟炸任務,就是一次又一次年輕人犧牲生命、為國捐軀的畫面。而今天我們要講的不是轟炸過程的英雄故事,而是幕後的真實情節。

  二次世界大戰期間,英國皇家空軍(Royal Air Force)為了抵抗德國戰鬥機與高射炮的攻擊,必須在飛機上裝上比較厚實的鋼板,以減少飛機被擊落的風險。然而,一旦加上厚鋼板,就會帶來幾項問題,一是飛機的酬載馬上變大,必須添加許多燃油才足以完成航程;再則,加了鋼板的重量,也會減少載彈的數量。又因為所加的厚鋼板無法覆蓋所有機身,因此英國皇家空軍便請美國哥倫比亞大學統計學教授亞伯拉罕‧沃爾德(Abraham Wald)進行分析與評估,應該將厚鋼板裝置在飛機上的哪個地方。

  沃爾德教授仔細調查了那些經過轟炸任務後歷劫歸來的飛機,以及機身上面彈孔的位置。大部分的彈孔都位於機翼與機尾,反而在駕駛艙、油箱、發動機的彈孔沒有很多,如圖1所示。

圖1. 被轟炸過後的飛機示意圖

繪圖者:張琬旖

  這樣詳實的調查報告,獲得了英國皇家空軍的認同。但在研究成果討論會上,雙方卻形成激烈的辯論。因為英國皇家空軍認為,厚鋼板應該裝置在機翼與機尾上,畢竟這兩個地方面積最大、吸引槍彈來攻的機率也最多。

  不過,沃爾德教授卻持完全相反的看法,他認為,轟炸機駕駛座艙與發動機位置的鋼板反而最應該強化,因為那裡的彈孔最少。沃爾德的推論聽起來嚴重違反人類的直覺,為什麼彈孔最少的地方,反而最應該加裝鋼板。那是因為這些部位被擊中的飛機,大部分已經無法返航,早就墜毀在歐洲內陸或海上。

  最後,英國皇家空軍同意沃爾德教授的看法,強化了沒有彈孔的地方的鋼板,結果安全返航的飛機大幅增加。而英國皇家空軍同步也動用敵後人員,調查了被擊落在德國的部分機身的殘骸,發現中彈的位置,確實如沃爾德教授所料,大都集中在駕駛艙與發動機的部位。

  以上的故事,可以呼應統計學裡「倖存者偏差(Survivorship Bias)」的概念。

  亦即資料來源如果僅僅來自於倖存者時(例如上述故事中安全返航的轟炸機),這些資料可能會與真實的狀況有所不同,進而產生偏差。而這種偏差,也將導致推論出各種可能的錯誤結論。

三、合取謬誤

  想像一下,您正參與一項心理學實驗。研究人員先給您看一位叫做「琳達」的背景資料。

琳達(Linda)今年31歲,單身、性格直率且非常聰明。她大學主修哲學,在學生時期,她非常關注歧視和社會正義的問題,當時還參加了反核示威遊行。

  接著,請您就下列敘述,給予1~8分的評分,1分是最有可能,8分是最不可能,來評判琳達可能是什麼樣身分的人。

琳達在小學教書( 分)

琳達在書店工作並定期上瑜珈課( 分)

琳達活躍於女權運動( 分)

琳達是精神病院裡的社工( 分)

琳達是某個婦權聯盟的一員( 分)

琳達是一位銀行出納員( 分)

琳達是一位保險業務員( 分)

琳達是一位銀行出納員並活躍於女權運動( 分)

  您的答案出來了嗎?

  這個實驗,是由美國行為科學家阿莫斯.特維爾斯基(Amos Tversky)和諾貝爾經濟學獎得主丹尼爾.卡尼曼(Daniel Kahneman)所進行,該實驗被稱為「琳達問題(Linda Problem)」實驗(而之所以取名「琳達」,是因為特維爾斯基教授以他在史丹佛大學的秘書琳達.科文頓(Linda Covington)為名)。

  該實驗的研究人員,向88位受試對象描述以上個案,以下是部分分數從低(最有可能)到高(最不可能)的排序。

琳達活躍於女權運動(平均2.1分)

琳達是一位銀行出納員並活躍於女權運動(平均4.1分)

琳達是一位銀行出納員(平均6.2分)

  不知道,大家有沒有看出來這項調查結果背後潛藏的問題。問題在於第二和第三項的敘述。受試者們認為「琳達是一位銀行出納員並活躍於女權運動」高於「琳達是一位銀行出納員」。

  然而,特維爾斯基教授指出,從邏輯上來說,這樣的判斷其實並不合理,因為兩個事件同時發生的機率,往往都只會小於或等於任一事件單獨發生的機率。這就是所謂的「合取謬誤(Conjunction Fallacy)」。

  合取謬誤又稱做「交集謬誤」,主要是人們習慣將多重條件「A 且(and) B」,誤認為它要比單一條件「A」或(or)「B」,更可能會發生的一種錯誤認知,如圖1所示。

0_Kt4ws-w0RfhIUXHq

圖1. 合取謬誤

繪圖者:彭煖蘋

  最後,當一位數學博士說自己不會寫程式,大部分的人心裡應該會想他在騙人。但數學博士與程式很強本來就是兩件事情,同時數學與程式都強的人,本來就比單獨數學強或單獨程式強的人還來的少。所以,我們要避免不自覺地掉到這樣的謬誤裡。

作者:鍾皓軒,羅凱陽,蘇宇暉
出版社:旗標科技
出版日期:2023/02/10
語言:繁體中文
定價:500元

回到頂端