透過機器學習預測「電信業」顧客流失率 - 基礎概況分析
(附Python程式碼)
情境
相信各位讀者還記得2018年5月,某電信推出行動網路吃到飽的專案,綁約30個月,每月只要499元;由於申辦期間僅有七天,引起台灣民眾的申辦的熱潮,我們俗稱「499之亂」。如果對499之亂的讀者有興趣想更進一步瞭解可以參考wiki的解釋。
電信行業有別於其他產業,特性包含公用性、資本密集度高、自然獨佔性。近幾年各大電信行為了爭取顧客,因此努力在服務產品上做出差異化;然而電信業能提供的服務大同小異,加上市場趨近飽和的情況下,難免流於削價競爭。
基於上面的這種情況,又可以如何對電信行業提出策略的改變方針呢? 美國著名管理學家、企業經營策略和競爭力權威麥克‧波特(Michael E. Porter)曾於1996年,在哈佛商業評論(HBR)上發表了一篇文章《策略是什麼?(What Is Strategy?)》,說明「經營策略」是「一家公司只有在建立一個它可以維持的不同之處時才能超越競爭對手」,並以宜家的成功案例來闡述不同競爭策略的重要性。簡言之,能否實行差異化策略對於各行業來說儼然成為企業競爭成敗之關鍵因素。
「A company can outperform rivals only if it can establish a different that it can preserve」
在本次案例中,我們根據哈佛商業評論“The Value of Keeping the Right Customers”中所提到:「開發一個新顧客的成本是留住一個顧客的25倍,而當顧客保留率上升5%,就可以提升25%-95%的利潤。」的觀點著手整個資料分析的思考流程。
接著,我們即從「顧客流失」的角度入手,以敘述性統計、模型預測等方法,了解顧客的行為特徵,同時預測顧客流失狀況,找出重點關鍵因素,並事先防止顧客可能之流失行為。
模型建立步驟
圖1為我們的模型建立步驟,我們會根據這個模式依序進行資料處理與建模,本文首先會介紹如何針對電信業之者客戶資料做資料前處理,讓我們接著看下去吧!
資料前處理
在建立模型前我們先進行資料前處理,以為後續分析建立基礎。
原始資料
原始數據包含 7,043 個客戶和 21 項變數,其內容大致可分為兩種:特徵變數和目標變數;其中特徵變數又可以分成人口統計變數、行為變項。目標變數則是我們最關心的-客戶最後有沒有流失。原始資料如圖2,詳細的資料型態從圖3至圖5:
在大致了解資料型態後,我們就可以開始看資料之間的關係,同時,這邊也附上Python的程式碼供大家參考,連結將放置於底下。
本文章資料與程式碼可見本處。
敘述性統計
以下為資料集的基本情況:
- 關鍵變數「是否流失(Churn)」,以虛擬變數呈現,流失的客戶佔樣本資料26.6%,未流失則佔比73.4%,如圖6。
2. 在性別變數上,男性為50.5%,女性為49.5%,如圖7。
3. 年齡變數上,以虛擬變數表示是否為年長者(≥ 65 歲),佔總樣本之16.2%,如圖8。
4. 在客戶停留月數上,有非常極端的分配(< 6個月或是>65個月),如圖9。
5. 在合約時間上分為三類,月份合約、一年合約與兩年合約,分別佔比(這裡我們沒算,但有分開流不流失的比例),如圖10。
6. 合約類型(Contract)與客戶停留月數(Tenure)之間存在相關性,月份合約大多有較少的停留月數,而兩年和月有較長的停留月數,如圖11。
探索性資料分析
另外,我們也計算出所有變數與關鍵變數「流失率(Churn)」的相關係數,篩選最有可能與流失率產生因果關係之變數。
- 顧客待在同一間公司的時間,我們用盒鬚圖的方式去看,可以看到平均月數和四分位數,會發現沒有流失的顧客在同一間電信業待的平均時間會比較久;所以可以推出基本上一位顧客決定要離開這間電信業時,平均約一年會下決定。
2. 合約時間長,這邊有分月、一年制跟兩年制,會發現流失的顧客當中,合約通常都是以月為單位的。
3. 在年齡變數上,流失顧客中年輕人口是老年人口的兩倍。
4. 從費用的角度來看,流失的顧客通常月費比較高,可能與合約是以月為單位有關係。
5. 最後在總費用的部分,大部分的顧客總費用會落在0–2000,這段費用區間又以會流失的顧客比較多。
在本次的探索性資料分析中,我們大概歸納出會流失的顧客特徵:
- 年齡:年輕人有比較高的機率會流失。
- 同間電信業停留時間:會流失的顧客通常一年內就會選擇換電信業。
- 合約時間:流失顧客的合約通常是以月為單位。
- 費用:相比總費用,月費更能看出顧客是否會流失;會流失的顧客通常月費越高。
所以這樣就結束了嗎?
從上述「敘述性統計」的圖表中,我們基本得知了本電信產業的服務概況。不過,我們顧問服務此類公司時,多數的業主其實皆早已知曉自身的產業特徵,也就是說,敘述性統計也通常已經無法滿足現今資料導向決策的需求。
所以我們是否能更進一步,在本公司消費者還沒有流失前,及時預測消費者的去留,以便做出及時留客的策略呢?
我們將在下一篇「預測性分析建模」開始我們「預測顧客流失」的第一步,讓我們面對多種資料變數下,也能易如反掌的預測「流失」! 敬請期待!
作者:張家穎、徐佳靖、林蔚恩(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究創辦人)
資料來源:
更多實戰案例及情境好文推薦
低程式碼應用程式展演(Low-code app demo)
低程式碼應用程式展演(Low-code app demo) 本案沒有因此結束,因為 Jasper 不僅有 A 商品,尚有不同商品欲執行精準行
矩陣分解推薦系統 - Python實戰:商務資料結構整理(附Python 程式碼)
矩陣分解推薦系統 - Python實戰: 商務資料結構整理(附Python 程式碼) 常有在使用 Netflix 看自己有興趣的影集、動漫或
AI 行銷學實作篇故事情境介紹_AI 行銷學分析工具應用實戰
AI 行銷學實作篇故事情境介紹_AI 行銷學分析工具應用實戰 身為行銷副總的 Jasper,踏著輕快的腳步聲,進入了A公司的會議室,同 To