社福單位如何利用視覺化找到目標受眾?

Photo by: Lukas Blazek

情境

「貧窮」是國家總會面臨的問題,但我們如何定義「貧窮人口」,月薪低於基本薪資就算貧窮?還是月薪無法支撐一個家庭生活起居的時候也算貧窮?一位無收入的遊民和一位領著略高於基本薪資的單親母親,誰比較貧窮呢?大概很多人會說遊民,因為他沒有「收入」。在已開發國家裡,常以政府記載的「收入」作為貧窮判斷依據。

但若在人均年收入不到500美元的發展中國家中,如何才算是貧窮呢?在這些國家中,人民的資料可能沒有被記載及保存,即使有也是殘缺的數據。在缺乏資料的狀況下,我們要怎麼知道誰才是最需要物資援助的家庭呢?

對於這些缺乏人民資料的發展中國家,世界銀行(World Bank)使用Proxy Means Test (PMT)模型判斷國家人民不同的貧窮程度,PMT模型不以收入與花費作為參數,而以家庭中成員、物資或是牆壁的材質等清楚且基本的可見指標作為依據,分類出需要最需要協助的族群。

任務目標

PMT模型雖然是現今常用的模型,但是當人口基數增加、或是地區改變時,模型便容易失去其準確性,失去本身的立意。本文章的任務目標為透過資料集,改良PMT模型的演算法更準確的找出最需要社會福利幫助的家庭!

解決方法

我們此次目標是利用機器學習模型區分出不同貧窮程度的家庭。但在建立模型前,需要先定義問題、了解資料與選出重要特徵,此三步驟能幫助我們更好的建立模型!定義問題與了解資料後,接著,可透過調整不同參數選出重要特徵,找出分類最貼近真實的模型!

根據世界銀行,PMT模型的指標需要符合兩個標準,首先PMT模型中的指標需要可以被查驗證實,另外指標必須和家庭的花費有關。此次資料集中總共有142個指標以及1個貧窮程度分類,其中142個指標中包括每月房租金額、是否有浴室、是否有冰箱等與花費有關的指標,貧窮程度分類涵蓋四種類別:1 = 非常貧窮, 2 = 中等貧窮 ,3 = 瀕臨貧窮, 4 = 不貧窮。

我們已經先定義出問題任務:找出新演算法能準確分出4種不同貧窮程度的家庭!下一步驟為了解資料,接著透過統計分析以及資料視覺化,分析出資料是否有異常值,或是找出各參數之間是否與分群結果有關。

異常值處理

在粗略了解資料及有哪些指標之後,資料科學家通常會花多數時間在清理資料與處理異常值以確保資料的正確性,因為資料在輸入或測量的時候,因人為或測量方法錯誤,而導致資料不正確。相同地,此資料集也需要先進行資料清理,與處理異常值。舉例而言,圖1. 為家庭ID 0172ab1d9的資料,此家庭貧窮程度應為3,但是在7562與7655列中,貧窮程度被輸入成2,因此需要先更正此錯誤,才能進行後續的資料分析。

資料中的參數有哪些?是否有錯誤?

圖1. 家庭ID 0172ab1d9 異常值處理

空缺值處理

在圖2. 資料集示意表中,可看到「家庭擁有筆電數量」的欄位有NaN。如果在「是否有筆電」的欄位為0,則「家庭擁有筆電數量」則為NaN,可以以0取代空缺值!

圖2. 資料集示意表

探索性資料分析

各變數與貧窮程度的關係是如何?
圖3. 受教育時長與貧窮程度的分布圖

清理完資料,藉由資料視覺化的方式找出各變數與貧窮程度的關係,舉例而言,可以使用分類圖了解家庭貧窮程度接受教育的時長之間的關係,如圖3. 貧窮程度與受教育時長關係圖所示,因為哥斯大黎加國家政策規定國民必須接受13年的國民教育,因此受教育時長低於13年的人數在4種貧窮程度上並無太大差異。

在受教育時長大於13年的人數,不貧窮的家庭(貧窮程度4)的人數顯著比其餘三者多上許多,甚至在此資料集中,只有不貧窮家庭成員可能會接受18年以上的教育。

除了透過分佈圖查看貧窮程度與受教育時長之外,也可以透過「小提琴圖(violin plot)」了解資料分布的情況,小提琴圖結合了盒狀圖(box plot)與密度圖(density plot)的特徵,可以同時了解資料的中位數、信賴區間已以及資料的分佈頻率。

圖4. 小提琴圖示意圖

若以最高教育程度(inst)作為區分的話,9分為碩士或以上學歷,0分則是未受正規教育。在圖5. 教育程度小提琴圖所示,不貧窮家庭(貧窮程度4 )在教育程度6~8範圍中的人數明顯地比其他三者中多,也就是說,不貧窮家庭受過高等教育的成員數遠比其他種三種族群高上取許多。而非常貧窮(貧窮程度1)、中等貧窮(貧窮程度2)、瀕臨貧窮(貧窮程度3)三種類別的家庭成員中,教育程度中位數多落在0~2年的區間。

圖5. 教育程度小提琴圖

此文中只列出教育程度與貧窮程度之間的關係,其餘變數可參考本資料

特徵工程

為了讓模型有較佳的訓練效率,資料科學家在將變數放入模型前會先進行「特徵工程(Feature Engineering)」。

瀏覽過各變數與貧窮程度的關係之後,接下來可以進行「特徵工程」,找出適合的模型參數。特徵工程就像是烹飪,將難以消化的原始參數轉換成模型較易訓練的特徵。此資料集使用特徵工程中的特徵建構(feature construction)。特徵建構指的是從原始的特徵組合創造出新的特徵。

舉例而言,因為認為水、電、地板、廁所等特徵對於貧窮程度是很重要的指標,所以新建立了一個指標為「warning」,warning 指標為「是否有廁所」、「是否有電」、「是否有地板」、「是否有供水」、「是否有天花板」五個原始指標的總和,若原始指標答案為否,warning則加1,反之則為0,故warning指標最高為5,最低為0,指數越高,與貧窮程度則有正向關係。

相同地,也建立一個「bonus」指標,bonus指標為「是否有冰箱」、「是否有電腦」、「是否有筆電」、「是否有電視」四個原始指標的總和,若原始指標答案為是,bonus則加1,反之則為0,故bonus最高為4,最低為0,指數越高,與貧窮程度則有負向關係。

統計分析

進行特徵建立後,使用統計分析查看各特徵間與貧窮程度的關係!

與貧窮程度有最高負相關的前五名指標分別為「warning」、「扶養比」、「家庭中0–19歲孩童個數」、「12歲以下孩童數」、「地面狀態」。相反地,與貧窮程度有最高正相關的前四名指標分別為「成人平均受教育程度」、「房屋遮蔽狀態」、「是否有地面」、「每家戶手機數」。

成果與應用

在經過最終的特徵工程篩選之後,便可以將這些特徵放入決策樹模型訓練了!決策樹是一個常見的演算法,基本是多個二分法的總和,最終會接近樹狀結構,可以同時處理不同種類數據,屬易於理解與解釋的模型,也可以視覺化分析。決策樹會從最上方條件開始判斷,舉例而言,圖6. 最上方為成年後受教育的平均年紀,若小於0.2年則會往左邊繼續判斷,若小於0.2年則會往右。所以若資料中的「成人後受教育平均年數」小於0.2年,則接下來需要判斷「最低上學年數是否小於0.17年」,答案若為是,則會被歸類於中等貧窮。最終,利用決策樹模型分類四種貧窮程度,如此以來,便可以輕易地找出最需要協助的家庭!

圖6. 決策樹示意圖

特徵工程的篩選以及決策樹模型除了可以使用在找出最需要社會福利協助的家庭外,也可以使用在商業上顧客樣貌分析,藉由特徵工程的篩選找出與結果最相關的參數,再經由決策樹找出顧客輪廓,進而針對特定顧客進行行銷。舉例而言,運動用品廠商推出一款價格較高、機能性強的登山鞋,然而,運動用品廠商沒有顧客的運動興趣資訊,因此無法準確對受眾行銷。此時,便可以利用決策樹找出顧客輪廓,會買高價、高機能性的登山鞋的顧客通常會有較高的薪資水平、喜愛戶外運動、曾經買過登山相關物品、平均年紀30~60歲、在意舒適度等等。可藉由此些指標找出潛在的顧客,對其進行登山鞋廣告投放,如此一來,不僅可以精準運用行銷成本,同時也可以獲得良好的反饋!

作者:葉庭妤(臺灣行銷研究特邀作者)、徐子皓(臺灣行銷研究特邀編審)、劉加德(臺灣行銷研究特邀編審)、鍾皓軒(臺灣行銷研究有限公司創辦人)

參考資料

  1. A Complete Introduction and Walkthrough
  2. Kaggle 資料集
  3. A Complete Introduction and Walkthrough
  4. Measuring income and poverty using Proxy Means Tests
  5. 常見特徵工程介紹

更多實戰案例及情境好文推薦

回到頂端