電腦也會美食評鑑?以分群演算法尋找最高級的巧克力

 

Photo by Denny Müller on Unsplash

情境

生產巧克力時,什麼產地的可可豆或是可可百分比可以為公司帶來更高的獲利呢?

巧克力作為一種流傳古今的甜品,消費市場也逐漸出現改變,由原來的衝動性購物轉變為追求品質的購物型態。當消費者購買一盒高級的巧克力作為禮物送給朋友或自己時,他們希望得到更多關於巧克力的資訊,但一般巧克力的包裝及標示並不能讓消費者知道巧克力的口感。這時如果有第三方巧克力評鑑機構透過相對客觀的角度,整合影響巧克力口感的因素(例如:可可豆產地和可可含量百分比)並給予評級,協助消費者判斷這個巧克力是否值得購買,則可以為消費者和巧克力生產商創造雙贏的局面。廠商可以透過這個巧克力評級來調整巧克力的配方,使他們生產的巧克力能夠獲得更高的評級,來達到吸引消費者與提升銷售量的目的,而消費者也可以透過評級,尋找到他們最喜歡的巧克力。

解決方法

1.資料簡介

巧克力的評級資料由曼哈頓巧克力協會的創始成員Brady Brelinski編制提供,本資料集共有1795筆,包含九個變數,如圖一所示。其中可可豆種類和可可豆原產國各有888筆和74筆的遺漏值,而可可豆種類之遺漏值過多,目前區分可可豆的品種只有三種,根據此資料推估許多可可豆並無明確分類在此三種類別中,而產生過多缺漏值,因此我們將這項變數刪除,不納入考量,另外,資料中特定的可可豆原產地和可可原產國,分別代表種植可可豆的城市及國家,所以可可原產地中的74筆遺漏值,會依據種植可可豆的城市所在之國家填補遺漏之欄位。

圖一、資料簡介

2.區分巧克力評級之特徵

在這筆資料中,我們雖然有各種巧克力的評級,但卻不知道較高的巧克力評級會包含什麼特徵,因此我們希望能有一個演算法能夠讓資料們自己「物以類聚」,有相似特性的資料就自己分成一群。在這個案例中,我們使用了DBSCAN演算法針對上述資料做分群,圖二為分群過後的結果,我們可以觀察圖二,同一種顏色即為同一群體,而坐標軸為每一筆資料之位置,由於資料存在之空間較複雜,難以肉眼區分,因此我們可將資料投射在平面上,較容易觀察所區分出之群體,在此總共區分為12群。

圖二、視覺化資料分群結果

接著,利用盒鬚圖觀察巧克力評級與可可含量百分比之間的關聯性,圖三橫軸之數字從-1至11表示為共有13個群體,其中-1代表離群值之群體,而縱軸則表示評級之分數;圖四橫軸同樣表示分成13個群體,而縱軸表示可可含量百分比。

由圖四可知,離群值的可可百分比之平均數相較於其他群體較高,但在巧克力評級的分數(圖三)為所有群體當中最低。

圖三、評級分群盒鬚圖
圖四、可可含量百分比分群盒鬚圖

成果與應用

完成上述之分群與分析後,可得知巧克力中的可可百分比較高並不一定會帶來更高的巧克力評級,甚至會使得巧克力評級變得更差。而評級最高的巧克力來自 Bolivia 和 Chile這兩個國家,且可可占比為73.5%時平均評級最高。因此對於對消費者來說,此結論可使得消費者在挑選巧克力時,不需盲目的追求濃度較高的巧克力,則可挑選評級較高的巧克力送禮或自己享用;對廠商來說,可根據上述之資料分析,挑選評級最好的可可豆產地來購買原料,也可以依據評級較高的可可百分比來做生產上的最適選擇。

此外本文所使用之分析工具與方法也可應用於具評級的相關產業,例如像是紅酒產業,紅酒同樣是具有多種葡萄品種以及各種產地來源,資料型態與巧克力類似,可以藉由本文之方法提升紅酒之評級!

作者:徐佳靖(臺灣行銷研究特邀作者)、林蔚恩(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人)

參考資料

1.Chocolate Bar Ratings
2.Chocolate ratings-Outlier analysis with DBScan

更多實戰案例及情境好文推薦

回到頂端