當STP「行銷策略」遇到資料科學 -
【資料蒐集】PTT貼文抓取模組教學
接續系列3的文章,我們知曉了基本的Python爬蟲方法,並且深度講解了如何爬取PTT的標題、文章網址、作者等爬蟲方法,接下來我們要將系列3的文章內容整合成一個讀者可以爬取PTT資料的Python模組程式,讓爬取PTT外部輿情變得更簡單! 若讀者還沒有參考過我們過往系列3的文章或者對爬蟲方法還有點模糊的話,歡迎參考:
![](https://cdn-images-1.medium.com/max/1000/1*GYVOwxFbAowslfMwg_C8Mg.jpeg)
PTT貼文抓取模組教學
作者在此直接附上寫好的PTT貼文模組教學,讓您一次可依照自己的需求爬取!
論模組使用方式,我們特別設定了一個crawl_ptt_page_auto函數,讓讀者能自由操作想要爬取的看板與頁,如圖2所示:
- 看板:在此稱為Board_Name,讀者可以輸入自己想要爬取的看板執行爬蟲作業。讀者可以至https://www.ptt.cc/cls/1 PTT分類看板中搜尋自己想要爬取的看板名稱,或者直接Google「ptt 想要的看板中文名稱」,如:「ptt 內衣」,Google大神就會協助讀者找到可能的ptt看板,然後再確認是否是讀者想要爬取的網站即可。最後將「看板」名稱,如圖1所示的「看板 underwear」英文複製並貼上至crawl_ptt_page_auto函數下的Board_Name數值,如:Board_Name = ‘underwear’即大功告成!
- 頁:在此稱為page_num,讀者可以輸入自己想要爬取的看板「頁數」,即會從最新的看板頁數開始往後爬取囉!
![爬蟲](https://cdn-images-1.medium.com/max/1000/1*FbO_zCn2lqghyzFpfXyxgA.png)
![爬蟲](https://cdn-images-1.medium.com/max/1000/1*BYWKB6v3hn4gelNHOaqD4A.png)
最後,我們抓取PTT看板結果如圖3呈現的內容:
- 版名:抓取的看板名稱
- 分類:有公告、贈送、心得、情報等分類,通常公告在我們後續的分析會移除,因為其用處對於輿情分析來說用途不大
- 標題:PTT不同文章的標題
- 內容:抓取文章的內容
- 時間:發表文章的時間
- 所有留言:該篇文章所有留言抓取下來,但是抓取下來的格式並不能直接進行分析,在後續系列文章中會開始講解如何整理留言資料,為後續的STP行銷策略分析有個好的開始!
實戰模組內容也歡迎讀者可以參考我們下述撰寫的Jupyter notebook鏈接哦~!
![](https://cdn-images-1.medium.com/max/1000/1*m4iy0KZ3fr1S8bIq6c52BQ.png)
系列3與4所有的程式教學檔案在此,歡迎參考:
如同我們之前在本篇 — 盡信資料,不如無資料文章中所提到的大意,要有好的分析結果,勢必要有完整且乾淨的資料,所以在後續的文章中,我們開始要教導大家如何進行PTT【留言】資料蒐集與資料整理,開始資料處理與分析前的第一步!
所以敬請讀者期待下一個單元 —
資料蒐集_Python網路爬蟲_ptt【留言】爬取與PTT資料整理
作者:鍾皓軒(臺灣行銷研究有限公司創辦人)
Python jupyter notebook整理作者:陳俊凱(臺灣行銷研究特邀整理作者)、孔慶媛(臺灣行銷研究特邀整理作者)
更多實戰案例及情境好文推薦
自動篩選惡意言論,找出省錢關鍵! 情境介紹篇:敘述性統計分析
自動篩選惡意言論,找出省錢關鍵! 情境介紹篇:敘述性統計分析 情境: 現今大多數的網站需要處理惡意與分裂性的言論。 Quora身為美國最大的
不是行銷專家,一樣能找出自身市場定位(含範例與R程式碼)
不是行銷專家,一樣能找出自身市場定位 (含範例與R程式碼) 您還記得STP這個行銷理論嗎?課本總是告訴我們要先對市場進行區隔 (Segmen
運用長條圖一窺顧客交易資料的商務應用 — 行銷活動回購分析(附Python程式碼)
運用長條圖一窺顧客交易資料的商務應用 — 行銷活動回購分析(附Python程式碼) 在數據分析上,常透過長條圖來比較不同項目的數據高低,本章