Chapter 03 假設驅動研究與資料驅動研究

一、假設驅動研究與資料驅動研究

2019年4月9日,新聞媒體出現了一則報導「IBM AI預測員工離職機率:正確率 95%,年省9億台幣留才費!」,正如標題所描述的,IBM開發出一套系統,能精準地在員工離職之前,預測他(她)何時即將離職,這樣IBM就能提前出手,挽留員工或者完成人力調度。根據IBM的估算,這套預測系統每年為公司節省9億新台幣,成效卓越。

儘管在該篇文章中,並未詳細說明離職預測模型建置的原理,只強調是透過人工智慧AI的方式來進行。事實上,目前可預測員工離職的方法越來越多,但這一篇文章我們先不討論人資單位如何預測哪些員工可能離職。我們打算先以「如何降低離職率」為例,讓大家了解一下傳統社會科學常用的方法論(又稱「假設驅動研究(Hypothesis-Driven Research)」),以及大數據分析所使用的方法論(又稱「資料驅動研究(Data-Hypothesis-Driven Research)」),有何不同。

首先我們回顧一下,以往要研究如何降低離職率,會如何進行?一開始,我們會先試著站在巨人的肩膀上,回顧一下現有的文獻,看看針對這個議題,有哪些已經發表過的文獻可以參考。上網搜尋後可發現,過去40多年,不斷有學者提出離職模型,例如:Mobley(1979)、Steers Mowday(1979)、Price-Mueller(1981)…等。如圖1、2、3所示。

圖1. Mobley(1979)等人之離職模型
繪圖者:彭煖蘋

圖2. Steers & Mowday(1979)之離職模型
繪圖者:彭煖蘋

圖3. Price-Mueller(1981)之離職模型
繪圖者:彭煖蘋

我們從以上三個例子可以看到,學者在發展模型的過程中,通常會先進行文獻探討,臚列出造成離職的可能動機(自變數),然後發展假設,再經由研究設計、抽樣設計、透過對樣本資料進行分析,驗證假設是否成立。而後續接手同一議題的學者則就自己的觀察,對之前研究者所發展出的模型,進行批判與補充,如此反覆循環。最終,這些模型透過各種假設的推論與驗證,並經後續學者們不斷地優化,漸漸地將離職模型的全貌勾勒出來。而這些模型發展的過程,就是傳統社會科學常用的方法論,又稱為「假設驅動研究(Hypothesis-Driven Research)」。

至於何謂「資料驅動研究(Data-Hypothesis-Driven Research)」。2009年Google於Nature發表了一篇文章「Detecting influenza epidemics using search engine query data」,內容談到Google透過分析5,000萬個使用者常用的搜尋字串,同時比對2003年到2008年間季節性流感的傳播資料,進而發展出預測流感的模型。為了對流感進行預測,Google陸續建立了4.5億個不同的數學模型,作法上要比過去傳統的模型更加精準。而以上的方法論即為「資料驅動研究(Data-Driven Research)」。

回到「如何降低離職率」這個議題上,要降低員工離職率,最佳的方式可能是想辦法預測同仁何時可能會離職,進而讓主管在同仁離職之前,就能先行加以挽留,並藉此讓優秀同仁留下來。

以「資料驅動研究」的概念為基礎,筆者藉由公司的人資資料,發展出離職預測模型。在發展模型的過程中,相關變數包括基本資料、人資資料、績效表現資料等共41項,內容如:部門、職位、性別、學歷、每日遲到分鐘數、遲到次數、請假、考績等,分析約20萬筆(項)紀錄。並採用隨機森林(Random Forest)為工具進行分析。而為了衡量模型的預測效能,將資料隨機切分成70%的訓練資料集(Calibration Sample),以及30%的驗證資料集(Holdout Sample),做為模型檢驗。

最後,預測模型發現最重要的變數依序為:考績、月平均遲到分鐘數、月遲到總分鐘數、年齡、星座、部門、年資…等,如圖4所示。

圖4. 運用隨機森林建立預測模型
繪圖者:鍾皓軒

根據預測模型,我們挑選出「考績」、「月遲到分鐘數」、與「年齡」是公司整體離職的重要特徵(關於這一部分,每家企業可能會有很大差異。一位曾經為台灣某家世界級企業做過類似專案的教授就曾分享,影響該公司離職率最大的變數是「請假」)。

這項發現,在「考績」與「年齡」上並沒有太大的驚喜,畢竟各行各業「考績」差、「年齡低」的員工離職率較高實屬常態。但是「月遲到分鐘數」的重要性竟然高過「年齡」等其他變數,就值得進一步探討。先撇開學術研究不談,這樣的結果,對各單位的主管來說,除了可讓主管發現個別員工可能離職的前兆(例如:月遲到分鐘數高的人),同時也可發現哪些員工已經接近自願性離職的邊緣(考績差、月遲到分鐘數高、年齡低的同仁)。

以上資料驅動研究(Data-Driven Research)乃是透過「資料庫知識探索(Knowledge Discovery in Database,簡稱KDD)」的方法來進行。在做法上,KDD透過訂定目標、建立目標資料集、資料清理與前置處理、資料轉換、選擇資料探勘方法、選擇資料探勘演算法、資料探勘(data mining)、解釋探勘模式和鞏固發現的知識等步驟找出預測模型。

從以上離職模型的探討中我們可以發現,「假設驅動研究(Hypothesis-Driven Research)」著重在員工離職的心理動機,而「資料驅動研究(Data-Hypothesis-Driven Research)」則以員工在職場上實際工作所呈現的資料,做為研究內容,而這也是兩者最大的差異所在。

二、盲人摸象—社會科學裡假設驅動研究限制

話說,有幾位盲胞,在泰國摸了一頭大象。
摸到象鼻的人說:「大象像一根又粗又長的管子」
摸到象耳的人說:「大象像一把又寬又扁的扇子」
摸到象牙的人說:「大象像一根大蘿蔔」
摸到象身的人說:「大象就像又厚又大的牆」
摸到象腿的人說:「大象就像一根柱子」
摸到象尾巴的人說:「大象就像一條又細又長的繩子」

圖5. 盲人摸象

鏡頭拉回現代企業之內,您有沒有發現,這幾位盲胞,就好比公司裡不同部門的同仁,抑或是不同位階的主管與員工,甚或是產業裡不同的企業,國家中不同的產業,世界上不同的國家。

當每個人看到一個相同的問題時,很本能,也很容易地由自己的觀點來分析,而忽略了從宏觀的角度來看待事情。事實上,影響事情發展最後結果的原因,非常可能來自於其他部門、其他公司、其他產業、甚至是其他國家。仔細回推影響結果的,可能是來自於不同時空裡,一項不為人知的原因所造成。

舉例來說,要是當年那個中國武漢人,沒有吃了那隻帶有病毒的蝙蝠…,可能沒有今天數萬人罹難的全球大疫情。武漢肺炎病毒的來源,中國人民都覺得是一隻蝙蝠,因為這場流感疫情所發生的一切(包括您賦閑在家玩電玩遊戲,從菜鳥刷到了大神,再刷到索然無味;包括您帶著口罩出門搶所謂的有效藥「雙黃連口服液」結果藥沒買到,還損失了個口罩;包括幾年過去後,您的孩子問您,為什麼自己同班同學跟自己的生日,都在同一個月……),都要從一隻蝙蝠說起…。

類似上述大大小小的故事,每天都在社會上發生。而社會科學,就是研究社會現象背後的一門學問。在進行社會科學的研究過程中,有很大的部分是採取「假設驅動研究(Hypothesis-Driven Research)」的做法。亦即針對研究問題與架構,發展研究假設,再透過資料的蒐集與分析,來驗證自己的假設是否正確。

假設驅動研究在本質上,會限制情境,最好能控制所有其他變數的影響,只探討某些變數之間的關係。這樣的過程,在自然科學(尤其是實驗室)裡,相對容易做到。然而,在社會科學裡,這樣的作法可能就會導致瞎子摸象問題的出現。畢竟社會上許多變數之間的關係,背後受到眾多因素所影響。

在實務上,要避免「瞎子摸象」,我們應該要有更宏觀的思維。從系統觀點出發,要找出病因,得加強各子系統之間,以及不同層次子系統之間的互動。也就是加強個人與個人、部門與部門、企業與企業、產業與產業、國家與國家之間,跨單位的溝通,以及不同國家、產業、企業、部門裡,不同產業、企業、部門、與個人之間,跨層次的溝通。

在互動的過程裡,縱使一開始是「瞎子摸象」也沒有關係,只要每位盲胞能夠多溝通,並且放棄本位主義,就有機會還原出整隻大象的全貌。

至於在學術界,「資料驅動研究(Data-Driven Research)」的概念,隨著大數據分析的出現而興起,如何整合假設驅動研究與資料驅動研究,可能是解決社會科學研究限制的一種方式。

最強行銷武器 — 整合行銷研究與資料科學

作者:鍾皓軒,羅凱陽,蘇宇暉
出版社:碁峰
出版日期:2021/08/09
語言:繁體中文
定價:580元

作者:鍾皓軒,羅凱陽,蘇宇暉
出版社:碁峰
出版日期:2021/08/09
語言:繁體中文
定價:580元

回到頂端