還在手動上字幕? Python 幫您完成「自動化上字幕」
- 案例分享(附Python程式碼)
Youtuber、數位媒體製作人、會議記錄者、研究者、記者、訪談者、逐字稿業者等照過來~!
在這AI爆炸的時代,似乎什麼都要來AI一下,不會AI技術好像就落後了一樣,但以現實狀況來說,對於不懂AI技術但又有商業或立即性需求的人來說,根本無從下手。好在Google在近年提供了AI雲端相關服務,讓對AI需求者可以透過Google API,套用深度學習工具,快速產出可交付成果。
這些深度學習的工具概括了:
- 自然語言處理
- 語音辨識
- 影像處理
- 及時語譯
等等…不勝枚舉的應用,有關更多資訊可以參考Google機器學習。
一、自動化上字幕? 對誰有影響?
如果您曾經有上過字幕或人工手打逐字稿的經驗嗎? 相信一定體會過什麼叫做「必要之惡」的痛楚,讓我們說得更白話一些, 上字幕與逐字稿相當於「幾乎無生產力,且又耗時」的工作任務。
再者,我們服務的許多合作夥伴皆有字幕處理上的痛點,尤其是數位媒體業者(影片製作等)對於上字幕或批打逐字稿可說是非常頭痛,更遑論我們周遭的研究者、訪談者、記者、公關、市調者等,整個市場對逐字稿「聽打」的需求與日俱增,我們便深入研究AI聽打的可能性,經過數些時日的研究與編程,我們特地將Google聽打機器學習的複雜的流程優化成一組組的Python套件,讓我們能以簡單易懂、事半功倍的方法使機器實行「AI語音轉文字」。
而所謂自動化上字幕的本意即是「利用機器學習,以最低成本,最高效益讓機器自動批打影片字幕或逐字稿」。並主要滿足下列需求:
- 數位媒體影音檔上字幕(如:Youtuber對字幕的需求等)
- 大型機構會議記錄效率上的提升(如:學校、各類公司、政府機關…等)
- 研究者訪談(碩士生、博士生…等)的文字稿的轉換需求等
本次我們就來分享「自動化字幕」如何在個案中發揮高價值,並且附上部份處理的程式碼讓大家玩味玩味~!
二、案例情境
我們就以某數位媒體 — 影片製作個案為例,其個案的資訊如下:
- 產品:行銷用之影片(包含動畫等多元商業影片)
- 通路:網路媒體為主
- 價格:人工影片字幕 NT 5,000–10,000 / 1小時
- 銷售:基於影片及字稿時效性,對象須節省時間,上架影片或字稿
- 難題:
- 台灣觀眾普遍喜愛有上過字幕的影片,但人工上字幕相對無生產力,也不希望團隊將時間損耗在字幕上。
- 如與字幕外包商一來一往通常就要1–3天的工作天,如遇週五時段外包,更又多浪費2天的時間。
- 對於影片製作商來說,時間就是金錢,一支少2–3天的發表時間的影片,等於每月至少要短缺$7,000–10,000 元的營收。這更遑論每個月平均產出20支影片所造成約$140,000–200,000元短缺的營收金額。
三、解決方案之步驟
面對諸如難題,討論許久,最終尋覓出我們的認定的解決方案,並開始了付諸實現下述「兩大主要」步驟:
- 使用Python為主要語言,作為自動化上字幕的基礎語言
- 利用GCP(goolge cloud platform)雲端運算資源,遠端處理影音檔龐大的字幕轉換功效,快速產出影片字幕
四、可交付成果
最終的可交付成果主要有3項:
第一項: 影音檔 + 字幕
本個案最重要的可交付成果為「1小時內快速處理完有字幕的1小時影音檔」。透過多方嘗試並遵循解決方案之步驟,我們總算完成這重大的任務!
共1個小時的錄音檔,如果錄音取樣頻率為16KHz,只需要花費9分鐘就可以完成!就算是高音質錄音檔,取樣頻率48KHz,也僅要花大約25分鐘左右的時間就可以精確完成!相較於人工處理的方式,要自己花 3小時批打 30 分鐘的逐字稿內容,這樣比較起來,AI聽打絕對是不錯的選擇!
而以下影片則為我們其中之一的範例檔案,歡迎大家到下述的youtube影片點擊觀看成效!
光看圖片不準,讓我們來看看影片範例吧 !
步驟一,觀看影片前,提醒讀者將字幕打開。
步驟二,將機器AI自動產生的字幕以鼠標向上移動,這樣就可以看清楚上下兩字幕囉!
如果對影片內容感興趣,可以參考:
台科 emba年年爆滿的一門word課(b+c系列)課程網址
https://hahow.in/cr/tmr-word
觀看完影片後,大家其實可以理解現今機器學習雖然不能100%「取代」人類,但至少節省了人類大約75%-85%的工作時間,確實提供人類一個不錯的解決方案!
第二項: 逐字稿(docx)與字詞改善矩陣(xlsx)
除了影音檔自動上字幕外,我們也為本個案提供自動生成之Word及excel檔案。AI聽打字詞正確矩陣,不但附上每個段落的時間,還附加改善順序,供內外部人員參考做修改。
第三項: 情緒分析與重要字詞文件
最後,我們還特別製作情緒分析及字詞重要性文件,讓使用者或管理者能夠以重要性分析及情緒分析,判別文章中重要字詞,作為改善策略。該部分尤其受到客服產業重視,讓我們稍微換個思考模式,其實就可發現情緒分析與重要字詞可以當作顧客的重要反饋之一,進而改善客服策略。
五、「自動化上字幕」VS營收
所以「自動化上字幕」跟營收有什麼關係?有更具體的效果評估嗎?讓我們回過頭來思考本個案在自動化上字幕與營收的關係,也就是影片製作商可以得到什麼好處?從影片製作商的角度來看,人工執行的成本是$15,000,但如果採用自動化上字幕(AI語音轉文字),且要求在60分鐘內交付成果,並以最高價格處理估算下來,發現僅需要$3,580。
這樣一來一往造成的結果是:
- 以一個小時的影片檔案來說,自動化上「字幕」,並且進行人工更正,如果不計算時間成本之損失,每一次可以節省大約NTD$3,420元的成本支出
- 一個月,就可以省下接近NTD$27,000元
- 一年,就可以省下接近NTD$330,000元
結語
對數位媒體產業來說,能做到自動化上字幕的方法必定能夠節省大量時間,並且能夠加以利用寶貴的時間去創造更大的價值。而在這資訊蓬勃發展的時代,這樣的自動化工具在數位媒體產業必然有極其可觀的市場。
不過,這一福音不該只在數位媒體業中被利用,應該讓對字幕或逐字稿有需求者使用,不必再花費無謂的時間與精力在機器能一鍵做到的事情上。
附上Python部份程式碼:
附上專案實做部份程式碼,歡迎參考!
作者:鍾皓軒(臺灣行銷研究有限公司 創辦人)
更多實戰案例及情境好文推薦
如何使用機器學習提高房仲業潛在成交率?資料處理面基本心法(附Python程式碼)
如何使用機器學習提高房仲業潛在成交率?資料處理面基本心法(附Python程式碼) 情境 目前美國知名房屋出租網「RentHop」於租客端已做
當STP「行銷策略」遇到資料科學 - 系列3 - 【資料蒐集】 Python網路爬蟲專案導向教學
當STP「行銷策略」遇到資料科學 - 【資料蒐集】 Python網路爬蟲專案導向教學 系列 1與2 文章回顧 讓我們首先重點回顧上一篇系列1