Chapter 09 處理—資料分析

一、常用的數據分析工具—Python、R、SPSS

行銷人和商管人過去在進行資料(數據)分析時,經常會使用MS Excel、SPSS或者是SAS等套裝軟體。因此,讀過商研、心理或社會學等研究所的學生對這些軟體都不會太陌生。但是,現在隨著R和Python電腦語言的崛起,加上其免費、後續衍生的套件功能強大、可處理資料容量也讓SPSS等軟體難以望其項背。因此,許多研究生和商管人已有逐漸改用R、Python的趨勢。

過去,由於商管研究所學生要畢業之前,大都規定要寫一本論文,因此做量化問卷和用SPSS跑統計是很稀鬆平常的事。而在寫論文之前,就會聽到很多學長姐或同學一直在詢問,哪裡可以找到SPSS軟體。

SPSS套裝軟體的好處是,它很容易於操作與學習,但必須要付費。R和Python語言的最大好處是「免費」,而且有龐大的社群在背後支持,加上不斷地開發出新的套件,供使用者使用。

不過,這些套裝軟體或是程式語言,都有優缺點與其適用性,在進行資料分析的學習與實作時,可以根據自己的需求與條件,選擇適合的套裝軟體或是程式語言來學習。

以下,簡單就SPSS、R和Python進行比較,如圖1所示。

常用的數據分析工具

圖1. SPSS、R、Python

1.SPSS

SPSS是IBM旗下的一套統計分析軟體。它的歷史悠久,最早的版本是於1968年提出。本書作者在學校做研究時,大都使用SPSS來進行。SPSS的售價並不便宜,大約十萬元起跳,如果需要用到其他進階功能,還需加購其它進階模組。

至於在資料量的處理上,相對於Python與R,SPSS處理的資料量相對較小(當然,處理能力還牽涉到電腦效能)。在資料分析上,SPSS適合進行統計分析與資料探勘,但繪圖功能對於Python與R要來的弱。

總之,SPSS是一套相當好上手的套裝軟體,也廣受許多大研究機構、學校、企業所使用。

2. R語言

R語言是由紐西蘭奧克蘭大學的羅斯·伊哈卡(George Ross Ihaka)和羅伯特·傑特曼(Robert Clifford Gentleman)於1993年所開發。R語言是一套免費的程式語言,而且背後有廣大的社群不斷地在研發新的套件。在資料量的處理上,R語言適合處理較大的資料量(相對於SPSS,如果資料量更大,就適合用Python)。

在進行資料分析時,R適合進行統計分析與資料探勘,而且R的繪圖功能非常強大,能呈現出良好的資料視覺化。目前幾乎所有統計系的學生,都被要求學習R。

3.Python

Python是由荷蘭程式設計師吉多·范‧羅蘇姆(Guido van Rossum)於1991年所提出。它與R一樣,是一套免費的軟體,而且背後有龐大的研發社群進行支援。

在資料量上,Python適合處理大資料與小資料。Python除了適合進行數據分析,Python還適合連結網頁後端,並與各大應用框架進行串接。這樣強大的延展性的功能,已經讓資料科學家跳脫數據分析的範疇,而進入到資料產品服務的研發設計上。

二、行銷資料科學的學習層次

行銷資料科學是「行銷」與「資料科學」跨領域結合,也是商管領域的新顯學。尤其資料科學家更曾被形容作「21世紀最迷人的職業」,不少剛剛接觸「行銷資料科學」的學生,都跑來詢問該如何入行。對曾經修習過「行銷管理學」的學生來說,我們給予的建議是,大家可以先從強化「數理統計能力」以及「程式能力」著手。

我們先以圖2為例,來說明行銷資料科學的學習層次。

行銷資料科學學習層次

圖2. 行銷資料科學學習層次

如果以程式設計能力和數理統計能力,兩種基本能力為縱橫座標軸,由圖1中可發現,橫軸的X是「數理統計能力」,所需知識從最基礎的統計學、到多變量分析、機器學習,再到深度學習。縱軸的Y是「程式設計能力」,則由不須寫程式的Excel,到專業統計分析軟體SPSS的操作,再到SAS、R、Python程式(與資料科學、AI相關的程式語言當然不只R與Python,本文只集中介紹這兩種)。

在這兩種能力所形成的場域下,圖1裡左下角的區域是「調查研究」,所需的數理統計能力與程式設計能力最低。事實上,這樣的程度已經能夠滿足眾多行銷實務上的需求。舉例來說,無論是顧客滿意度調查,或是新產品測試,擁有數理統計的基礎,以及熟悉Excel軟體,就能協助企業完成這類型的調查研究報告。

圖1裡中間的部分是「數據分析」,這部分所需的數理能力與程式設計能力已經要有一定的程度。在數理統計上,則要熟悉多變量分析與一些機器學習。程式設計部分則可使用SPSS、SAS,或是要有一定程度R或Python的基礎。舉例來說,當企業想建置顧客忠誠度模型,或是發展精準行銷方案,就需要擁有這些編寫程式的技巧與能力。

至於圖1中右上角「AI」的部分,則要擁有機器學習與深度學習的知識,並且對Python非常熟悉。對於企業來說,發展AI行銷系統,例如智慧客服機器人,就高度需要擁有這個層次的能力。

最後,要學好「行銷資料科學」,除了要有「數理統計能力」與「程式設計能力」外,還需要「行銷管理」的理論知識與實務經驗。因為橫跨和縱跨的「步幅」不小,這也是為何「行銷資料科學」相關人才如此稀缺的原因。

三、多變量統計模式

在統計學中,研究「單一變數」或是同時研究兩個變數之間的關係,是最初階的分析方法,而如果同時研究兩個以上的變數(通常是一個自變數,以及兩個或兩個以上的依變數)就是俗稱的多變量統計。

舉例來說,在現實環境中,我們所關心的某種現象,往往不只跟一個變數有關。像是影響5G手機銷售績效的變數,不只是手機本身的功能屬性而已,可能還與電信公司的搭配策略、基地台建置數量、顧客可支配所得等因素具有密切關係,因此多變量分析應該對實際的行銷研究工作,較有幫助。

根據周文賢教授在《多變量統計分析》一書中的歸納,多變量統計分析架構如圖3所示。

多變量統計模式歸類

圖3. 多變量統計模式歸類

資料來源:周文賢,多變量統計分析SAS/STAT使用方法,智勝文化

周文賢教授將多變量統計分成三大類:函數關係模式(Functional Relation Model)、相依關係模式(Interdependence Relation Model)、系統關係模式(System Relation Model)。

其中,函數關係模式又依反應變量的不同,區分為「分析性反應變量統計模式」與「分類性反應變量統計模式」。

分析性反應變量統計模式,包括迴歸分析(Regression Analysis)、單因子變異數分析(1-Way ANOVA)、雙因子變異數分析(2-Way ANOVA)、單因子共變數分析(1-Way ANCOVA)、單因子多變量變異數分析(1-Way MANOVA)、一般線性模式(GLM,General Linear Model)等六種。至於分類性反應變量統計模式則包括:鑑別分析(Discriminate Analysis)、類別資料分析(Categorical Data Analysis)等兩種。

相依關係模式則依構面減縮對象的不同,分成「變數相依關係統計模式」與「個案相依關係統計模式」。

其中,變數相依關統計模式包括:主成份分析(Principal Component Analysis)、正典相關分析(CANCORR, CANonical CORRelation Analysis)、因素分析(Factor Analysis)等。另外,個案相依關係統計模式則有,集群分析(Cluster Analysis)和多元尺度分析(Multidimensional Scaling Analysis)等。

至於系統關係模式,主要在探討變數之間是否存在因果關係,內容包括遞歸系統的路徑分析(Path Analysis),以及聯立系統的線性結構關係模式(LISREL, Linear Structure Relation)。

有人形容,消費者的行為有時像是一團「迷霧」,藉由統計分析,讓行銷人得以抽絲剝繭,可以逐步釐清其中的關係。有別於傳統統計方法所注重的「參數估計」和「假設檢定」。多變量分析主要透過分析擁有多個變數的資料,同時探討變數和變數彼此之間的關聯性,或者用以釐清資料的結構。

舉例來說,在系統關係模式中的「路徑分析」主要在於探析變數間的因果關係(causal relationship),通常以兩變數之相關係數來衡量其相關程度,但相關係數並無法說明變數間的因果關係。例如:研究者懷疑貧民窟的居民收入與犯罪率之間有正相關,然而在未做路徑分析之前,就不能斷言居民收入是犯罪率高的原因。「多變量統計模式」無論是在社會學或是行銷研究裡,都是一項非常重要的統計工具,值得每位行銷研究者好好學習。

 

四、區別分析、因素分析、集群分析

在行銷研究中,行銷人經常為了要區辨出特定消費者的類型,為了解析某些事件的原因,以及將某些物品分門別類,因此會大量用到「多變量分析」中的區別分析、因素分析和集群分析,以下簡單進行說明。

(一) 區別分析(Discriminant Analysis)

在發展行銷企劃時,企業常常需要將顧客進行「區別」,區分出誰是對公司忠誠較高的常客?誰是忠誠度較低的非常客?或者誰是對公司貢獻度較大的貴客?要找到這些不同類型的顧客,可透過區別分析(Discriminant Analysis)來完成。

區別分析的目的,乃是根據一組自變數上的測量值,將個體或個人分類至互斥的不同組別當中。實務上,它就是在探討單一分類性變數(如忠誠或非忠誠),對N個解釋變數(影響忠誠度與否的許多原因)之統計分析模式。也就是說,區別分析能將每位顧客,分類成忠誠顧客或非忠誠顧客,如圖4所示。

區別分析

圖4. 區別分析

區別分析的依變數為類別變數(categorical variable),而自變數為連續變數。區別分析適用的情形,主要是依變數的每一個類別都經過清楚和明確的定義,每個受試者或個體屬於其中之一,且事前就已明確了解。因此,區別分析就是以此依變數作為分類或分組的基準,並根據個體在一組自變數上的得分組合方式(稱為區別函數(discriminant function),以達成將個體分派到已知組別的目的。

換句話說,依變數中的每個類別(如忠誠或非忠誠)都被清楚定義,裡面的個體屬於哪個類別也很清楚(亦即哪位顧客是忠誠顧客,或非忠誠顧客能明確區分)。區別分析的目的,在於找出有解釋力的變數以及進行預測,這一點與迴歸分析相當類似。同時,依照解釋量的大小,行銷研究人員可以決定要選取多少個區別函數,作為分組或分類的標準。

再進一步看,區別分析在行銷實務上的應用,也可將消費者分成已購買或未購買,並根據產品屬性、消費者偏好、消費者人口統計變數…等,發展出「預測模型」。行銷人員即可透過模型,找出可能購買者的條件,進而發展相關行銷計畫,來接觸與滿足這群消費者。

最後,區別分析除了可以找出資料庫裡忠誠顧客和非忠誠顧客之間的差異,也可以發掘出市場上潛在購買者的樣貌,甚或是分析出會購買競爭者產品的消費者是誰,進而與自己的消費者進行比較。

區別分析在行銷研究中被廣泛地使用,尤其是對於了解用戶和非用戶之間的差異,以及識別出用戶的某些特質等方面特別有效。

(二) 因素分析(Factor Analysis)

行銷人和學界在製作和收回消費者填答行銷研究的問卷時,對於動輒數十題的題項,往往會產生一種困擾,認為究竟有沒有一種方式,可以用比較少的構面(或稱變數)來代表這些眾多的題項,因為題項太多,最終反而容易讓解答太過發散。

事實上,因素分析(Factor Analysis)就是解決這類問題的一種工具。

因素分析法是由英國心理學家查爾斯‧斯皮爾曼(Charles Spearman)於1904年所發明,他並將此技術應用於智力相關的研究。因素分析可以抽離出各變數背後存在的共同概念(亦稱「共同因素(common factor)」)。因素分析能從N個可觀察的變數中,萃取出M個不可觀察的潛在因素的統計方法,其中M<N。

斯皮爾曼之所以會有這樣的想法,在於他發現到學生的各科成績之間,往往存在著一定的相關性。因為其中一科(例如數學)成績好的學生,往往其他各科成績(物理、化學)也比較好,從而推想是否存在著某些潛在的共同因素,或者一般智力條件也會影響學生的學習成績。而因素分析可在許多變數中找出隱藏、且具有代表性的因素,將本質相同的變數歸類成一個因素,藉此減少變數的數量。因素分析的概念圖如圖5所示。

因素分析

圖5. 因素分析

因素分析在行銷管理上的應用非常多元。舉例來說:行銷研究人員透過文獻探討與進行專家訪談,發展出數十題網路行銷市場區隔的量表,接著,再根據問卷調查結果,找出背後具有代表性的關鍵因素,以作為企業在發展網路行銷市場區隔策略時的參考。

(三) 集群分析(Cluster Analysis)

有一句俗話說「物以類聚」,但是在行銷資料的世界裡,如果沒有人為的處理,性質相同的資料還是不會類聚。我們總要把類似的資料儘量排在一起,才能找到共有的特徵,而「集群分析」正是一種精簡資料的方法,依據樣本之間的共同屬性,將比較相似的樣本聚集在一起,形成集群(cluster)。

從視覺化的觀點來看,如果每一筆資料在縱橫座標軸上,是一個點。那麼通常以距離作為分類的依據,相對距離愈近,相似程度愈高,資料分群之後可以使得群組內差異小、群組間差異變大。

換句話說,集群分析(Cluster Analysis)的目標,是將樣本分為不同的數個組,以使各組內的同質性最大化,以及各組之間的異質性最大化。而這樣的概念,其實與市場區隔裡的「組內同質、組間異質」,不是很類似嗎?學者邁爾斯(Myers)與陶伯(Tauber)就發現[1],在市場區隔技術方面,集群分析會優於因素分析。

集群分析能將N個樣本,集結成M個群體的統計方法,其中M<=N。

如果所有樣本最後被分為一組,代表這一組裡的成員彼此相對不可區分。

目前,集群分析技術主要有兩大類:階層式分群(Hierarchical Clustering)和切割式分群(Partitional Clustering)。

階層式分群(Hierarchical Clustering)不用指定分群數量,演算法會直接根據樣本資料之間的距離,將距離最近的集結在一群,直到所有樣本都併入到同一個集群之中。階層式分群的結果,可透過樹狀圖來呈現,如圖6所示。

[1] Myers, J.H. and Tauber, E., Market Structure Analysis, Chicago, American Marketing Association, 1977, pp. 68–90.

集群分析 — 階層式分群

圖6. 集群分析 — 階層式分群

切割式分群(Partitional Clustering)則會事先指定分群數量,並透過像K-means等演算法,讓組內同質性和組間異質性最大化。

集群分析主要用於將人分群,所依據的變數通常是描述消費者的特徵(如,人口統計變數、態度、需求…等)。

再舉一個例子,美國職籃就曾將ESPN選出的前25名球星,包含得分、籃板、助攻、火鍋及抄截等資料。以集群分析法將25名球星分成五大類,分別是主力得分群、防守猛將群、控球後衛群、雙能衛與強力前鋒群,供球隊和經理和教練在選秀和調度時參考,這也是集群分析的主要運用方式。

值得一提的是,集群分析的結果往往會隨著「時間」而有所改變,因此在透過集群分析做決策時,應特別考慮到這一點。

最強行銷武器 — 整合行銷研究與資料科學

作者:鍾皓軒,羅凱陽,蘇宇暉
出版社:碁峰
出版日期:2021/08/09
語言:繁體中文
定價:580元

作者:鍾皓軒,羅凱陽,蘇宇暉
出版社:碁峰
出版日期:2021/08/09
語言:繁體中文
定價:580元

回到頂端