Chapter 02 行銷資料的類型、來源與管理
一、行銷資料的類型
(一)結構化與非結構化資料
進入大數據時代,資料成為挖掘商機的礦脈。然而,如果企業對資料的管理不夠,想要利用大數據來開創新生意等於緣木求魚。請思考一下,自己公司有刻意收集什麼樣的資料嗎?公司有善待儲存下來的各式資料嗎?它們有專人管理嗎?還是坐看它們放在倉庫中,隨著歲月崩解殆盡?
在過去,許多企業認為資料庫裡的銷售資料、生產資料、財務資料…等量化資料,特別具有價值。事實上,真的是如此嗎?我們有個朋友,十多年前就開始在網路上,架設網站收集網友關於美妝的討論資料,而網友的留言都是一些文本(Text)資料,不但沒有固定格式,也不容易發掘出什麼內容來。當年他的員工就曾經問他,收集這些資料到底要幹嘛?他說他也不知道,反正先收攬下來再說,只要收集到一定的規模,就一定會發現「什麼」。
現在靠著網友的支持,他的網站現在已經是台灣最大的美妝網站之一,幾乎所有的化妝品要上市前,都會先到網站發佈試用資訊、徵求試用者、然後再逐一測試、改善,收集意見後,才敢正式上市。對歐美、日系、韓系,甚至是台灣的本土美容業者來說,他的網站已儼然成為美妝界「資料」的寶庫。
從以上的說明可以發現,無論是銷售、生產、財務等量化資料,或是網友討論的文本資料,都是屬於資料型態的一環。而了解資料型態,正是踏入行銷資料科學領域的第一步,那到底資料是如何分類的?
我們先來看一下維基百科如何定義「資料」。資料指的是「未經過處裡的原始記錄」,包括:數字、文字、聲音、影像…等。而在電腦裡的資料,最終可分解成0與1,進行儲存與計算。
一般在資料科學裡,最重要的資料分類方式之一,即為SQL資料與NoSQL資料。本文將「可用SQL查詢結構化的資料」稱為「SQL資料」,並將SQL以外可查詢非結構化的資料稱為「NoSQL資料」(見圖1、圖2):
圖1 SQL資料與NoSQL資料
繪圖者:張庭瑄
SQL是Structured Query Language的縮寫,意指「結構化查詢語言」,其資料為結構化資料。結構化資料在資料庫裡意指:它擁有固定欄位、固定格式與順序…等。例如:企業銷售資料庫裡的欄位,通常有「會員編號」、「購買日期」、「購買品項」和「購買金額」等。類似目前企業最常用的excel格式檔案。
至於NoSQL的英文為Not Only SQL,意指「不只是SQL」,其中包含非結構化或半結構化資料。非結構化資料在資料庫裡意指:沒有固定欄位,也沒有固定格式。例如:影像檔、語音檔、圖檔、Office檔案、PDF檔、e-mail和網頁等;半結構化資料在資料庫裡則意指:具有欄位,但內容不一致,例如:人力銀行網站上的職務內容,就是半結構化資料。
因為每家公司的需求內容不一樣,無法有一致性的填寫方式,這類型的資料就無法透過欄位一一存放。
圖2 SQL與NoSQL
繪圖者:王舒憶
以上簡單介紹結構化資料與非結構化資料的差異,接著,我們將陸續對「行銷資料」、「研究資料」、「資料類型的排列組合」加以介紹,為行銷資料科學的學習奠定良好的基礎。
(二)企業內部資料和外部資料
為了做生意,全世家每一家企業都在搜集資料。像是在銷售產品時,收集消費者資料以便做好售後服務;或是在製造產品時,收集品管資料以便做好製程改善;亦或是在人員訓練時,搜集學員的上課、考試資料以便做好人才培育。平心而論,蒐集資料是企業的天職之一。
企業所蒐集的資料,種類可以很多元,無論是實體的或是數位的、文件或是電腦檔案,而拿來做行銷之用的,就屬「行銷資料」(顧名思義就是與行銷相關的資料)。
一般來說,行銷資料的分類方式有以下幾種:1.內部資料與外部資料;2.初級資料與次級資料;3.總體(宏觀)資料與個體(微觀)資料;4.研究資料。
以下先說明內部資料與外部資料進行說明,之後再陸續介紹其他類型資料。
1.內部資料:
與行銷較相關的企業內部資料,包括:銷售資料、顧客交易資料、產品服務資料、銷售人員報告、廣告支出相關的統計數據、運輸成本和與會計資料(會計損益表和不同年度的資產負債表)等。內部來源的資訊取得容易,且收集時比較不會有財務負擔。然而,內部資料的搜集可能是個緩慢的過程(因為各單位的本位主義),但相對來說也比較準確和可靠。
在蒐集內部行銷資料時,業務人員是一個重要的來源,因為他們直接負責銷售與推廣產品,並參與了解消費者的需求、動機、偏好和購買習慣。他們還可以回饋對產品價格,設計,包裝和尺寸的建議,了解消費者或經銷商對公司產品的反應。行銷經理可以指導業務人員如何收集資訊並做定期報告,而行銷資料科學也可以針對這些文字資料與數字資料進行分析。
搜集消費者的原始數據非常重要。企業可以選擇具有代表性的消費者樣本,進行產品價格、品質和使用經驗調查。這種收集數據的方法比較可靠,因為它建立了生產者與消費者之間的直接聯繫。商對公司產品的反應。行銷經理可以指導業務人員如何收集資訊並做定期報告,而行銷資料科學也可以針對這些文字資料與數字資料進行分析。
2.外部資料:
與行銷較相關的企業外部資料包括:市場調查公司的研究報告、潛在顧客資料、政府資料…等。這些外部資料可透過自行蒐集,或是下載、購買次級資料的方式來進行。
在蒐集外部行銷資料時,經銷商與消費者是重要的來源。企業可以根據零售商對產品的需求收集寶貴的資訊,像是競爭對手的行銷策略…等。不過,有時因為經銷商未保留適當紀錄導致資料不足,或者經銷商不願「交心」給了錯誤資料,就可能導致資料失效。
值得注意的是,在實務操作上,企業內部行銷資料經常會有「完整度不足」以及「使用度不足」的問題。「完整度不足」意指「不知道該增加哪些資料欄位」,以及「不容易蒐集到所需資料」。「使用度不足」則指「空有資料,但沒有分析」,或是「只做簡單的分析」;至於外部行銷資料則會有「沒有意識到應該要收集與分析」以及「外包」費用昂貴等問題。以上這些問題,都是企業在進行行銷資料科學專案時的瓶頸。
(三)初級資料與次級資料
搜集行銷資料是一件很耗時費工的事,更重要的是,它還可能很「花錢」。在進一步介紹行銷資料科學之前,先來看一下「初級資料」與「次級資料」,它是資料的另一種分類方式。
1.初級資料:
初級資料(primary data)是由研究者主動自己收集的資料(第一手),例如:自己所進行的市調。舉例來說,行銷研究中常會調查消費者的態度、認知、意圖、動機與行為。在傳統的行銷研究裡,常見的初級資料蒐集方法包括:面談法、問卷法、觀察法和實驗法等,如圖3所示。
圖3 初級資料的蒐集方法
繪圖者:周晏汝
而在行銷資料科學中,初級資料的蒐集方法還包括網路探勘(Web Mining)等,詳細的內容於往後再陸續介紹。
2.次級資料:
次級資料(secondary data)是指間接取得別人所整理的資料(第二手),例如:引用政府開放資料。次級資料是相對於初級資料所命名,雖然次級資料在字面上看起來像是二手數據,但所謂的「二手」,並不像現實世界中的「二手車」,是已被他人使用過的那種意思。
次級資料一般分為「內部次級資料」與「外部次級資料」,如圖4所示。次級資料的蒐集成本通常較低並且有效率,但所獲得的資料卻未必適合企業自身所需。
圖4 次級資料的種類
繪圖者:周晏汝
(1)內部次級資料
內部資料成本低而且取得容易,同時符合企業所需,故內部資料為次級資料的重要來源。內部次級資料包括:銷售資料、生產資料、財會資料和人資資料等。
(2)外部次級資料
資料本身並非為特定問題或研究而蒐集,可能是因其他的研究或報告而已被彙整成為檔案。例如政府或企業的出版品或報告。常見的外部次級資料包括:政府機構的統計資料、公會、協會、學會、媒體業、學術機構、行銷研究機構之產業報告、調查報告、研究報告…等。
「次級資料」通常有一定的限制。例如不同機構收集的資料可能無法比較。換句話說,資料收集不會採用統一的基礎,或者來源根本不完整,又或者收集的目的不是為行銷研究所專用。
次級資料常是研究者的基礎依據,舉例來說,內政部的人口統計資料,就是選舉民意調查的基礎。市場調查公司或者行銷研究者可以先透過人口統計資料,進一步設計抽樣計畫,知道應該在哪些地區以及抽多少樣本數。因此,收集次級資料有利於大型研究計畫的施作,也可提昇現有研究的效率。
(3)次級資料的優點
次級資料的優點是大部分的初步檢視工作已經完成,而部分資料也以電子格式加以建立與分類,並完成案例研究發布和審查。次級資料並可透過媒體的使用,通常很快地變成公共知識,例如媒體報導國民所得、家戶可支配收入等,由這些資料逐步構建出當地民眾的消費能力。由於公開曝光和受公共檢驗,次級資料的正當性(legitimacy)通常比初級資料更高,通常被拿來用作初級資料的驗證。以下是次級資料的優點:
- 節省時間、人力和費用。
- 有助於提升對研究問題的理解。
- 確認資料蒐集缺口,讓初級資料的蒐集計畫更加明確。
- 為初級資料的蒐集,提供比較的基礎。
(4)次級資料的缺點
次級資料也存有一些潛在的問題。例如:研究者很難獲得完全符合需求的次級資料。次級資料的缺點如下:
- 未必可以直接運用在行銷研究上。例如:研究者需要家庭可支配所得的資料,但拿到的卻可能是家庭總收入的資料,或是研究者所獲得的分類級距,與想要的分類級距不同。
- 準確性有待商榷。
- 資料可能已經過時。
次級資料的優缺點如圖5所示。
圖5 次級資料的優缺點
(5)評估次級資料
由於次級資料可能有缺點存在,因在評估次級資料時,必須滿足以下四項要求(如圖6所示):
- 可用性:判斷所需要的資料是否可用。如果不行,必須考慮透過初級資料蒐集來補足。
- 相關性:應符合研究問題的要求。例如:計量單位應相同;使用的概念必須相同,也就是「資料貨幣(currency of data)」不應過時。(註:資料貨幣是把資料當成貨幣的概念,意即將資料賦予類似貨幣的價值,以確定其對組織的財務重要性,一旦確定了資料的貨幣價值,就可以用作交易中的交易單位,既可以單獨付款,也可以與貨幣結合使用)。
- 準確性:為了確認資料的準確性,必須考慮以下幾點:比較資料的規格、分類與級距;注意來源的可靠性;確認資料蒐集的方式;以及判斷資料的時效。
- 準確性:為了確認資料的準確性,必須考慮以下幾點:比較資料的規格、分類與級距;注意來源的可靠性;確認資料蒐集的方式;以及判斷資料的時效。
圖6 如何評估次級資料
繪圖者:王彥琳
(四)研究資料
當我們要對「資料」進行更進一步的「統計運算」時,就必須對資料「測量」(measurement)的類型先行了解。「測量」意指對所測概念(變數)給定一個數字或符號的過程,例如:溫度為攝氏26度、性別為男…等。
在研究方法裡,有關「測量」(measurement)的資料類型包括:名目資料(nominal)、順序資料(ordinal)、區間資料(interval)以及比例資料(ratio),如圖7所示。
圖7 名目資料、順序資料、區間資料、與比例資料
繪圖者:張庭瑄
1.名目資料(nominal)
名目資料能區分不同組別,例如:將「性別」區分成「男」、「女」。以下是名目資料的特性:
名目內容(如:「男」、「女」)本身具有意義,但編碼後 (如「男」為「1」、「女」為「0」) 的數字大小,並不代表任何意義(如,不能說1大於0)。
編碼後的數字不能排序,但在統計處理時,可以累加次數(頻率數,也就是符合的人數),例如男性156人、女性182人,或按次數多寡依序排列找出最高數值(最多人選擇的選項次數)。
2.順序資料(ordinal)
順序資料能區分等級或順序,例如:教育程度裡,從小到大依序為:國小、國中、高中、大學、研究所。以下是順序資料的特性:
- 編碼後的數字能夠排序,但無法進行加減。
- 可降階為名目資料(如:將教育程度區分成國小、國中、高中、大學、研究所,但不予排序)。
3.區間資料(interval)
區間資料能區分程度上的差異,例如:年份為2001年、2002年、2003年…。以下是區間資料的特性:
- 編碼後的數字為等距(如:「1與2之間的距離」,與「2與3之間的距離」相同)。
- 因為等距,所以能夠加減(如:年份2005年與2000年之間差了5年)。
- 因為不具絕對原點,所以不能乘除(如:年份2000年/2並不具意義)
問卷調查最常採用的就是區間尺度。例如請從「非常滿意、很滿意、滿意、普通、不滿意、很不滿意、非常不滿意」等選項中圈選出符合的,這原本是順序尺度,在此則拿來做為區間尺度來使用。區間尺度因為設定的組距都相等,所以可做為「非常滿意7分、…、非常不滿意1分」的處理方式,而最有名的則像是李克特七點量表或五點量表。
可降階為名目資料與順序資料。
4.比例資料(ratio)
比例資料能衡量數值之間實質的差異,例如:價格為100元、200元、300元…等。以下是比例資料的特性:
- 因為等距,所以能夠加減(如:價格200元與價格100元之間差100元)
- 具絕對原點,所以能乘除(如:價格200元/2=價格100元)
- 可降階為名目資料、順序資料與區間資料
當我們在整理與分析資料時,無論是要對現有資料進行「降階」,或是選擇該採用哪一種適合的統計工具進行分析時,必須先釐清以上的資料類型,才能協助我們進行正確的整理與分析。
(五)總體(宏觀)資料與個體(微觀)資料
在大數據時代,資料是企業的生財工具,先前已談過資料的許多類型,都是從資料的本質出發,但這一次我們從個別資料和累加資料的觀點著眼,又產生出總體(宏觀)資料與個體(微觀)資料。
所謂總體資料(Macro Data)與個體資料(Micro Data)定義如下:
1.總體資料(Macro Data)
即使用者以「宏觀」的角度來看待的「大眾資料」。對總體資料進行分析稱為「總體分析」,是一種對「大眾集體行為」分析的方式。舉例來說,我們會統計居住在特定地理區域的「總人數」,再以年齡結構,性別和收入水準,算出各個級距的人數。它是一種由個別資料累加而成的概念。而如果以行銷來說,「區隔」行銷可以算是一種總體分析。
2.個體資料(Micro Data)
乃是採用「微觀」角度來看待「個人資料」。對個體資料進行分析稱為「個體分析」,是一種對「個人個別行為」進行分析的方式。以行銷領域來說,「一對一行銷」或「精準行銷」就屬於個體分析。
舉個例子,美國人口普查局的「摘要性磁帶檔案(Summary Tape Files)」中,即包含各類的彙總數據,包括特定地理區域中具有各種特定屬性的個人總數資料。從某種角度來看,它們是一種彙總表格,此即為總體資料。然而,同樣在該局的「公眾使用微數據樣本(Public Use Microdata Sample,PUMS)檔案裡頭,則包含有原始普查的個人數據(其中已刪除特定個資,以保護受被訪者的機密性),此即為個體資料。
以下是總體(宏觀)資料與個體(微觀)資料簡單的比較,如圖8所示。
圖8 總體(宏觀)資料與個體(微觀)資料的比較
繪圖者:張庭瑄
以往企業的行銷比較少注意到消費者的個體資料,只有在做「質性訪談」或者「焦點群體」訪談時,會聚焦到個別消費者。過去企業通常以總體資料為出發點,大量生產相同的產品,促銷給普羅大眾。後來消費者個人主義興起,客製化行銷的概念出現,廠商開始號稱產品是為顧客「量身訂做」。
不過在這個階段,其實企業所做的只是「大量客製化」。舉例來說,國際車廠宣稱消費者可以在它的官網上自由選擇車型、款式、顏色,甚至是內裝的皮椅。儘管這樣的組合已達到所謂的一對一行銷,但從另一個角度看,即便廠商的選擇可以排列出十萬種組合,對於其一百萬的汽車客戶來說,也只是平均不同的十個人得到一種一模一樣的汽車,所以算不上是「完全客製化」。不過,企業這樣做,起碼看起來比較有誠意。
大數據時代來臨後,讓一對一行銷的變得相對簡單,因為各類的行銷數據在交叉比對和運用之後,企業很容易抓到客戶的真實喜好,只要在生產端再加以變化,就可以精準地瞄準消費者的胃口來做生意了。
了解以上資料的類別,有助於資料的收集。畢竟,擁有越多正確且多元的資料,將有助於企業進行行銷資料科學的分析。
二、資料類別排列組合
企業搜集資料要下許多功夫,而面對這些得來不易的資料,在運用上更是存乎一心。以往的行銷資料大部分都是單一使用,例如:將客戶的購買資料經過分析之後,可以判斷出哪些客戶是貴客、哪些是常客,哪些又是新客,依此得出單一維度的行銷數據。但是在理解「資料」與「行銷資料」的分類後,我們可以進一步透過資料類別的「排列組合」,來協助企業進行資料的收集與分析,進而擬定相關的行銷方案。
我們以某家百貨公司為例,先將「內部資料、外部資料」,以及「結構化、非結構化資料」進行排列組合,可得到四種資料類別,如下圖9所示:
圖9 內、外部、結構化、非結構化排列矩陣
繪圖者:張庭瑄
1.右上角第一象限的「外部結構化」資料︰分析各縣市、鄉鎮的人口統計資料,發展各地展店評估方案。
2.左上角第二象限的「內部結構化」資料︰分析消費者個別資料,發展出新客、常客與貴客等不同顧客的關係管理方案,像是針對貴客舉辦「封館特賣之夜」,或是針對常客舉辦「消費一定金額」大優惠,針對新客舉辦「開卡送好禮」活動等。
如果結合第一、第二這兩個象限,則可進一步評估,開設分館的優先順序,哪些地區分館要先開,哪些地區的順位則可擺在稍後再處理。
3.左下角第三象限的「內部非結構化」資料︰可分析消費者瀏覽百貨公司動線的影像記錄資料、消費者在哪些櫃位停留最久,哪些商品曾經被消費者拿起來端詳之後,又被擺放回去。如此,百貨公司可發展產品擺設的優化方案,或者產品包裝的改換計畫。
4.右下角第四象限的「外部非結構化」資料︰可分析消費者在網路上對該百貨公司或特定商品的「口碑聲量」與「好感度」,進而發展網路口碑行銷方案。
在運用這些資料時,使用者要懂得運用想像力,來發揮資料分析背後的價值。例如:我們可以思考一下,結合第二與第三象限的數據後,還可以做些什麼?讀者可能會想到,在百貨公司入口的攝影機,透過人臉自動辨識系統,遠遠地看到貴客出現時,就可在系統上發出提醒訊息,讓值班的主管有機會與他們接觸。如此一來,將更能帶給顧客「賓至如歸」的氛圍。
透過以上的例子,可以讓讀者更了解學習「資料」與「行銷資料」的分類,不僅僅只是學習辨識資料的類別,更重要的是透過這些分類,以及對分類的排列組合,協助企業進行資料的收集與分析,進而擬定出有效的行銷方案。
<<本頁僅供試讀,若須閱讀完整章節歡迎參考行銷資料科學>>
行銷資料科學|大數據x市場分析x人工智慧
出版社:碁峰
出版日期:2019/07/30
語言:繁體中文
定價:520元