Chapter 02 敘述統計

一、六個人的小世界

  社會學裡,有一個很有名的理論稱為「六度分隔理論(Six degrees of separation)」,又稱「六個人的小世界」,內容是指世界上互不相識的兩個人,只需要少數(大約是六個人)的中間人,就能夠相互建立起聯結。對了,您有沒有在臉書上發現,您的這個朋友,怎麼也會認識您的另外一個好久沒有連絡的朋友呢?這就有六度分隔理論隱身在後。

  「六度分隔理論」的概念,源自於1929年匈牙利作家卡琳西‧佛里吉斯(Karinthy Frigyes)的短文《鏈鎖(Chains)》。大約四十年後,1967年美國社會學家史坦利‧米爾格拉姆(Stanley Milgram)依據這個概念做過一次連鎖信實驗證明,嘗試證明平均只需要6步就可以聯繫任何兩個互不相識的人,他後來還因此宣稱六度分隔理論在美國實際存在。

  不過,到了2002年,美國心理學家茱蒂絲‧克萊因費爾德(Judith Kleinfeld)在今日心理學期刊(Psychology Today)發表了一篇名為《六度分隔:都會傳說?(Six Degrees: Urban Myth?)》文章,提出了不同的看法。

  克萊因費爾德(Kleinfeld)檢視了存放在耶魯大學檔案室中,米爾格拉姆(Milgram)的論文檔,並追踪小世界研究的相關細節。她發現,在其未發表的初始研究中,發出的60封信中其實只有3封成功寄達,只佔全數的5%。同時,在他的研究對象中,社會階層與種族界線也是很大的鴻溝。尤其,如果寄件者是低收入戶,收件者是高收入階層,達成率幾乎為0。米爾格拉姆的實驗,並未像他宣稱的那樣完美。

  相反地,哥倫比亞大學的鄧肯‧瓦茨(Duncan Watts)在2000年,與他的同事們透過數學模型,展示小世界是如何運作的,並成功引起其他領域如疾病傳播研究者的興趣。到了2008,微軟公司的研究人員,透過對MSN資料庫的分析,對比了300億則通訊,證實了人與人之間的間隔為6.6人。

  克萊因費爾德認為,實際上,人們對小世界的感知經驗,與數學家的認知之間也有區別。克萊因費爾德舉例,在美國,一位領著社會救濟金的母親,與美國總統之間的距離可能不到「六度」。她的社會救濟金經辦人可以是第一位中間人,該經辦人的主管可能是第二位,而主管的主管可能是市長(第三位中間人),而市長有可能認識美國總統(所以只需要三位中間人)。然而這有什麼意義,6看起來很小,但傳達的距離卻很遙遠。如圖1所示。

0_xJ9LGt4vAQBS4xD3

圖1. 領社會救濟金的母親與美國總統之間的距離

繪圖者:彭煖蘋

  有趣的是,「六度分隔理論」在兩個行業中受到廣泛的應用,您猜得到是哪個行業嗎?答案是保險業及直銷業。因為這兩個行業特別注重人脈,他們最常使用的銷售技巧就是您的誰誰誰,也買了我們家的保險或產品。小小世界裡,平常兩位素不相識的人之間,通過一定的聯繫方式,往往能夠產生必然的連繫,或建構出特定的關係。

二、直方圖與長條圖之差異

  直方圖是統計學中,最初步也是最簡單的圖形表示方法之一,透過數根長方型的圖示,就可以表達一組資料集的大致樣態。因此,這種簡單瞭的表達方式也讓它在各類統計應用中,歷久不衰。

  直方圖(Histogram)是每一位初學統計的人的入門課程。如果大家還記得,每位統計老師在第一次上課,介紹到資料集的表示方法時,第一個登場的通常就是「直方圖」。

  直方圖的英文為Histogram,第一次看到這個英文單字,會以為直方圖跟歷史History有密切關連,但兩者的關係其實是八竿子打不著。而直方圖還有一個長相近似的孿生兄弟,叫做長條圖(Bar chart),但兩者在表達資料的用法上,還是有一些差異,如圖1所示,初學者應該特別注意。

0_OSp7hkXwZAOMAZZ3

圖1. 直方圖(Histogram)與長條圖(Bar chart)之差異

繪圖:傅嬿珊、彭煖蘋

  基本上,直方圖主要在呈現資料分布的結果,長條圖呈現的是各組資料的大小。直方圖的橫軸變數為「數值型連續變數」,長條圖則為「類別型離散變數」。至於組距的「間隔」,直方圖各組距之間是連接在一起的,彼此之間沒有間隔;長條圖則是組距之間存在著間隔(有人認為,有間隔才能呈現分布的狀態,並讓直方圖和長條圖能有區隔;但也有人認為,有無間隔,差異不大)。

  另外,直方圖的組距是有順序的,所以不可相互置換,而長條圖則無順序,可以置換。但長條圖也因為可以置換,通常在畫出圖形後,可以對橫軸的組別,依次數大小進行排序,以利使用者用在後續的決策制定。

  此外,直方圖裡各組距次數的加總,即為條形圖的總面積,每個條形圖背後所佔的面積,就代表每個組距中包含的次數。當組距變大時,會使得條形圖的高度跟著改變,如圖2所示。

0_qmSOIwFEPf-zzSlX

圖2. 直方圖各組距次數加總

  最後,直方圖與長條圖在使用上,有時並不明確。舉例來說,業績報表中常會以「顧客年齡」作為呈現的依據,而年齡是數值型態的連續變數,所以是透過直方圖來呈現(如圖3所示,在此以有間隔方式呈現)。然而,一旦以顧客業績做為排序的依據時(亦即將顧客業績依高至低進行排列),這時候,各個年齡組距的順序就會被打破,此時就會呈現出企業顧客最重要的年齡組距(如圖4所示)。

圖3. 各年齡層組距之營業額

圖4. 各年齡層組距之營業額(排序後)

  直方圖表面上看似簡單,卻隱藏了一些內涵,值得初學者特別注意一下。

作者:鍾皓軒,羅凱陽,蘇宇暉
出版社:旗標科技
出版日期:2023/02/10
語言:繁體中文
定價:500元

回到頂端