當銀行「信用卡發放」遇到機器學習!? — 更精準快速的申辦與檢核過程!(附Python程式碼)
情境
根據金管會銀行局統計,截至民國110年6月為止,台灣市面上的信用卡流通數量約有5仟1佰萬張,而整體信用卡市場累計的刷卡金額更突破兆元大關,為1.22兆新台幣,其平均年增率則為7.02%。由以上統計資料可得知信用卡市場為一個成長中的市場。而信用卡也在近年來由於科技的進步與疫情催化下邁向數位化,讓民眾使用信用卡時更加省時與便利。
對於民眾來說,現今金融業界的服務機構眾多,信用卡種類多元,應該「如何選擇適合自己的信用卡」、「是否符合信用卡申辦條件」是銀行客戶常常面臨的問題。而另一方面,對於金融機構來說,「如何保留現有客戶」和「如何開發潛在客戶」亦是重要的課題(如圖一所示)。而過往信用卡的審核方式多是採取人工審核,不僅費力費時,對於客戶與銀行雙方而言也較無效率。
綜合以上所述以及數位轉型浪潮下,若能學習機器學習技術並靈活運用,除了能幫助民眾快速了解自己是否符合該信用卡的申請條件,也可以幫助銀行快速地進行核卡流程,節省其人力和時間成本,並利用資料分析進一步瞭解申辦此信用卡的客戶輪廓。 (如圖二所示)
資料說明
此資料集來自《Econometric Analysis》這本書,是一個申辦信用卡客戶資料的虛擬資料集。此資料集如如表一所示所示擁有 12 個欄位,且總共有 1,319 筆資料。
在表二中, Card 欄位便是我們此次研究的目標變數,他是一個二元變數欄位,之後可以代換成數值資料,以「1」 代表信用卡申辦成功,以「0 」代表信用卡申辦失敗。
研究流程與說明
圖三是此次研究流程,進行信用卡申辦狀況的分析與預測。
- 信用卡申辦狀況分析
a . 目前申辦客戶的年齡、收入、信用、居住、工作狀況等
b . 進一步查看與「信用卡是否申辦成功」的關聯性
2. 信用卡申辦狀況預測
a. 具有特定特徵的客戶信用卡核准率高來篩選相關特徵
b. 挑選適當模型進行預測
細部資料一覽
在電腦科學領域中有一句耳熟能詳的句子:「Garbage in, garbage out.」,意味著資料前處理的重要性,也可以參考我們過往的文章「盡信資料,不如無資料」來瞭解更多。在實務中,資料可能會有缺失值、極端值和雜訊(Noise)等等,應先將原始資料處理過後再進行分析和建模,才能確保機器學習的輸入與輸出皆是適當的資料。因此在進行資料分析與建立預測模型之前,我們必須先進行「資料前處理」。
本文章資料與程式碼可見本處。
- 匯入套件
首先先在Python IDE匯入資料處理套件,numpy和pandas。(如圖四所示)
2. 匯入資料集(如圖五所示)
3. 查看各欄位類型
我們可以發現這個資料集的欄位,包含了4個浮點數欄位(float64)、5個整數欄位(int64)以及3個類別型資料欄位(object)。而在機器學習實作中,一般建立模型前須先將類別型資料進行轉換,轉換成數值型的資料,才能順利建立機器學習模型。(如圖六所示)
4. 查看缺失值
若資料集中存在缺失值,需進行填補以利後續資料分析和建立模型。(如圖七所示)
幸運的是,本次資料集未有缺失值,因此不需進行填補的資料處理。
所以接下來呢?
本次我們瞭解了信用卡申辦概況與所使用之資料集。在下一篇,我們即將以「視覺化」的方式來揭曉信用卡申辦的基本資料分析,讓大家能更清楚了解業內信用卡申辦通過與否的重點因素!
作者:Anna Wu(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究創辦人)
下集預告:當金融業的「信用卡發放」遇到機器學習!?-探索性資料分析
參考文獻
更多實戰案例及情境好文推薦
視覺化財經數據,挖掘資料金礦 — 以美國投資基金公司為例
視覺化財經數據,挖掘資料金礦 - 以美國投資基金公司為例 情境 電影《華爾街之狼》中有一句話「在太陽升起之前,就投資了太陽的股票!」完美詮釋
常貴客?新客? 讓RFM模型簡簡單單做到顧客產品推薦!(附Python程式碼)
常貴客?新客? 讓RFM模型簡簡單單做到顧客產品推薦!(附Python程式碼) 在行銷資料科學裡,有一項好用的工具可協助企業找出 R 「新客