「建立統計思維」的層次
「統計學」是一門很實用的學問。不過,許多學生學習了統計學的內容後,即便考試也考的很不錯,但就是無法在生活中與工作實務中,順利應用出來。面對這類問題,我們總是鼓勵同學們要先建立統計思維,從基礎的數據分析開始,養成以統計為基礎的批判思考能力。如此一來,就有機會將統計運用在實務上,進而創造出更大的價值。
那麼究竟什麼是「統計思維」呢?其實統計思維有層次性,如果把它視為一個金字塔型的構造,從最底層的敘述統計開始,依序是「數據分析」層次的敘述統計、推論統計、資料科學到「批判思考」的統計思考和模型思維。以下,我們簡單說明建立統計思維的層次,如圖1所示。
1.敘述統計(Descriptive statistics)
敘述性統計雖然只是基礎,卻已能夠呈現出許多有用的資訊。然而在使用敘述統計時,還是要避免誤用。譬如應該用中位數來計算大聯盟運動員的年薪,以避免少數明星球員所造成的影響。
舉例而言,2019年,洋基隊以一張九年三億兩千六百萬美元的合約,與投手柯爾(Gerrit Alan Cole)簽約,隨即讓柯爾成為美國職棒大聯盟(MLB)有史以來薪水最高的投手。而他的薪資一下子就把大聯盟30隊,近一千名球員的平均薪水405萬美元,拉高不少。但其實有些球員的最底薪,薪水只有55.5萬美元,差異非常懸殊。因此,大聯盟運動員的年薪不該用平均數來看,而應該用中位數來檢視。
同時,在使用敘述性統計時,也得避免運用圖表視覺化的呈現,來操縱他人對圖表的認知。
2.推論統計(Inferential statistics)
推論統計有兩大學派:頻率推論(Frequentist inference)與貝葉斯推論(Bayesian inference),兩者雖然觀點不同,但各有其擅長之處。而解決複雜問題的有效方法,通常是結合兩者的力量。
3.資料科學(Data science)
資料科學背後有各式各樣的演算法,包括:決策樹(Decision tree)、隨機森林(Random forest)、迴歸(Regression)、神經網路(Neural network)、支持向量機(SVM)、XGBoosting…等。這些演算法,不但有助於進行數據分析,發展預測模型,甚至能建立AI人工智慧系統。
4.統計思考(Statistics Thinning)
統計學裡有許多法則(law)、偏差(bias)、悖論(paradox)、或是捷思法(heuristic,又稱經驗法則)…等,例如:小數法則(Law of small numbers)、倖存者偏差(Survivorship Bias)、辛普森悖論(Simpson’s Paradox)、定錨捷思法(Anchoring heuristic)等。行銷人和資訊人必須好好運用這些知識,以利於我們做好決策。
5.模型思維(Model Thinning)
模型(Model)是「真實事物的簡要呈現(abstraction of reality)」。模型可以協助我們瞭解真實世界的運作,進而協助發現問題、解決問題。
還記得COVID-19疫情期間,陳建仁副總統所舉的疾病傳染案例嗎?如果一位被感染的同學會傳給三位同學,傳染病就會是1傳3,3傳9,9傳27,這樣傳到第10遍,就是59,049人,接近六萬人;而如果是每1次被感染的三位同學,都有1位被隔離,兩位沒隔離,傳到第10遍,即1傳2,2傳4,4傳8,傳到第10遍,仍會有1024人;但如果每一次被感染的三位同學,都有兩位被隔離,一位沒隔離,這時1傳1傳1傳1,第10遍只有一位同學會傳播感染。透過傳染病模型,可以得到發生傳染病的機率,甚至估計一旦有多少人接種了疫苗,傳染病就不會發生。建立模型思維,也助於擁有智慧(Wisdom),培養洞見(Insight)。
作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)
更多商普好文推薦
捷運路網圖與拓撲學(Topology)的故事
捷運路網圖與拓撲學(Topology)的故事 現在在台北,許多人每天都搭乘捷運上下班,往來台北市和新北市,捷運已成為大台北都會區最便捷的交通