大數據時代下,統計學不再有優勢?


偶爾聽到有人說,在大數據時代下,母體幾乎等於樣本,因此傳統統計學不再具有優勢。事實上,大數據分析與抽樣,就好比「普查」和「小量樣本的抽取和檢視」。其中,因為「普查」是取得母體的實際分配,所以不需要用統計學的方法進行推斷估計;而「抽樣調查」則是利用抽樣理論獲取樣本,進而推論母體分配與特徵。所以,言下之意,似乎可以跳過統計學習,直接學習大數據比較快,但這樣真的對嗎?

面對這樣的質疑,我們提供一些想法供大家參考,如圖1所示:

圖1大數據時代下,統計學不再有優勢?

1.統計學的範疇不僅僅只是抽樣:

統計學與大數據分析都會用到資料蒐集、分析建模(例如迴歸分析)、資料呈現……等。而且,統計學裡的許多理論,是大數據分析的基礎。

另一方面,統計還有很重要的真偽辨別方式,學會型一和型二錯誤,它不但會告訴您錯誤發生在哪裡,而且還可以告訴您,犯錯的機率有多少?這對於企業管理者非常重要,因為可以讓企業在做決策時,有個比較好的進退依據。

2.大數據的資料與母體還是有些差距

就母體與樣本來說,大數據的全部資料未必代表所有的母體。舉例來說,在對選舉結果進行預測時,會在網路上進行表態的選民,並不能代表所有的選民,因為這些會主動表態的民眾,都是具有資訊能力的,而年長者、網路基礎建設不佳的,可能都受到忽略。此時,如果只利用大數據分析來蒐集網路輿情,進而進行預測,預測結果未必準確。

3.消費者的內心資料,透過大數據分析不易獲得

以網路輿情為例,消費者會在網路上呈現出自己的想法,但內心世界未必全部會被揭露。尤其當我們想深入了解一個人心中的想法時,如果沒有進一步深談,很難取得這類資料。

4.所欲進行的研究母體很小

有時候,企業所要進行的研究母體很小,或樣本數很少,沒有辦法或者沒有必要用到抽樣與大數據。

其實,大數據分析、抽樣、或是頻率推論、貝葉斯推論……等,都是不同的工具,也有其不同的適用情境。重點是我們會多少工具(技多不壓身),以及能否活用這些工具,來解決問題。

其實,我們可以將統計抽樣與大數據分析進行整合、對照、或驗證。例如,在進行預測分析時,一方面進行網路輿情大數據分析,二方面結合抽樣調查來進行預測上的輔助。亦或是在整合行銷研究與行銷資料科學時,將抽樣調查當作探索性研究的工具,並根據初步的發現,再進行大數據分析。

最後,大數據分析背後的理論基礎,與統計學息息相關,這也是為何許多在做大數據分析的人,都是統計背景。同時,許多非統計背景而想學大數據分析的人,最終也都要回來學習統計學的原因。

作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)

繪圖者:謝瑜倩


 

更多商普好文推薦

回到頂端